1、 业务场景说明:
2、 从业务映射到机器学习:
3、 友商应用资料:
4、 LPA方法原理:[1][3]
5、 特征过滤的解决方案:[4]
6、 R语言试验
7、 总结(仅个人观点,欢迎指出错误):
附录:
一、常见的半监督学习大类:[2]
二、参考文献:
三、代码
1、 业务场景说明:
每个业务(或项目)期初阶段会面临一个问题:标签用户太少,未标签的用户太多。如:POI项目,X亿X千万的用户中只有X万不到的用户有过报错行为。如何快速将报错行为的人群快速扩散出去就成了现实业务问题。
2、 从业务映射到机器学习:
当Label<<unlabel时,传统的监督式学习在这种情况下效果明显下降。于是就有了“半监督学习”,半监督学习就是通过有限的label标签推广至unlabel标签数据的方法论。(具体可看附录相关文献。)
3、 友商应用资料:
目前还未查到相关资料,待补充(阿里,京东,百度,谷歌,facebook)
从百度学术或谷歌学术中可以看到一些大致的应用场景:
http://xueshu.baidu.com/s?wd=%E6%A0%87%E7%AD%BE%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
4、 LPA方法原理:[1][3]
它是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点。
迭代过程如下:
图一,第一次迭代
图二,第二次迭代
第二次迭代原本没有传递信息的标签开始传递。
最终就会变成这样一个情况:(理想情况)
伪代码:
输入:user_id ,特征,tag
输出:user_id,相似值
1) 计算观测值与观测值的距离 dij |