机器学习人群扩散(LPA算法)

本文介绍了LPA(Label Propagation Algorithm)算法在处理标签稀疏问题上的应用,特别是在人群扩散场景。从业务背景出发,讨论了半监督学习的必要性,并详细解释了LPA算法的原理和R语言实现。实验结果显示,LPA算法在不同样本配比下表现出不同的精确率和召回率,提示模型效能受数据量和特征选择影响。总结中提出了平滑假设、聚类假设和流形假设,并探讨了算法优化方向,包括数据分块、定期更新和语言转换等策略。
摘要由CSDN通过智能技术生成

1、       业务场景说明:
2、       从业务映射到机器学习:
3、       友商应用资料:
4、       LPA方法原理:[1][3]
5、       特征过滤的解决方案:[4]
6、       R语言试验
7、       总结(仅个人观点,欢迎指出错误):
附录:
一、常见的半监督学习大类:[2]
二、参考文献:
三、代码

1、 业务场景说明:
每个业务(或项目)期初阶段会面临一个问题:标签用户太少,未标签的用户太多。如:POI项目,X亿X千万的用户中只有X万不到的用户有过报错行为。如何快速将报错行为的人群快速扩散出去就成了现实业务问题。
2、 从业务映射到机器学习:
当Label<<unlabel时,传统的监督式学习在这种情况下效果明显下降。于是就有了“半监督学习”,半监督学习就是通过有限的label标签推广至unlabel标签数据的方法论。(具体可看附录相关文献。)
3、 友商应用资料:
目前还未查到相关资料,待补充(阿里,京东,百度,谷歌,facebook)
从百度学术或谷歌学术中可以看到一些大致的应用场景:
http://xueshu.baidu.com/s?wd=%E6%A0%87%E7%AD%BE%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
4、 LPA方法原理:[1][3]
它是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点。
迭代过程如下:


图一,第一次迭代

图二,第二次迭代

第二次迭代原本没有传递信息的标签开始传递。

最终就会变成这样一个情况:(理想情况)


伪代码:

输入:user_id ,特征,tag

输出:user_id,相似值

1) 计算观测值与观测值的距离 dij

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值