项目背景需求
最初始公司想在已有的产品当中加上资讯模块来提高用户的活跃和在线停留时长。这就需要推送给用户感兴趣的资讯,而用户的用户画像已经保存了用户的兴趣特征,所以需要提取资讯的特征,用于用户的个性化推荐。
如何提取资讯的特征或者说对资讯进行简单的分类? 刚开始想到svm等一些常用的分类方法,但由于采集到的资讯也不知道有哪些分类,所以这种方法并不适合。想到了无监督的聚类的方法,因为自身产品的特性影响,所采集到的资讯数据,和今日头条等产品的传统资讯内容有所差异,一词多义的情况较多,聚类的方法虽然可以做,但需要指定类目,再加上聚类对多语义的情况效果并不好,因此方法也并没有选择。后来查了腾讯等其他公司,看了他们在使用LDA在做相关的东西,选择该方法去尝试提取资讯特征。
LDA理论简介
该篇博客只是对LDA做简要介绍,其中涉及到的推导过程会在后面抽时间专门写篇博文或者参考Blei, David M的论文和《LDA数学八卦》,后面给出一些参考资料.
1. 基础数学概念和结论- 二项分布
二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负。而二项分布即重复n次的伯努利试验,概率密度函数
- 多项分布(二项分布扩展到多维的情况)
多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k) ,
- Beta分布
Beta分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数 ,它是一个连续分布,由于它描述概率p的分布,因此其取值 范围为0到1
- Dirichlet分布(beta分布在高维度上的推广)
另外一种表示方式:
- 共轭先验分布
某观测数据服从概率分布P(θ),给定若干样本x,考虑以下几个问题:
(1) 可否根据新观测数据x,更新参数θ
(2) 根据新给定的样本在多大程度改变参数θ
为了重新估计θ,在给定的样本x下参数θ的新概率分布,即P(θ|x),给定样本x下,P(x)是可观测出来,是已知的。根据贝叶斯公式可知:
如果后验概率p(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,