LDA这个东西真的是。。。。看过的人都不想再看第二遍。。。各种分布,数学不好的人真的是跪了。
一开始看LDA觉得很疑惑,觉得不是LDA不是用来产生主题的吗,一直在讲什么生成模型,我要你生成模型干嘛,你可真像个弱智。然后后面又回顾了一下EM算法,
EM算法样例:
3个硬币,正面概率为π,p,q,先掷A硬币,如果是正面就接着掷B,如果是反面就掷C,最终得到结果1,0,1,1这样,求估计π,p,q参数
1,0,1,1这样的就是观测数据,但是实际上中间是有着隐藏变量:A的值,所以根据这些进行算法求导
LDA:
对于每篇文章,默认为是词袋(单词间顺序毫无关系),那么对于每个单词可以考虑是先从主题集合中选出一个主题,在从主题对应的单词集合中选出一个单词,这样子完成
文档的书写,那么现在文档是已经有了,那么我把这个当作观测数据,也就是逆序推导,已经知道文章,求解文章构建时候的参数,用来做EM算法。
先介绍一下PLSA:
公式就这个,然后用EM算法迭代计算P(z|d)和P(w|z),z表示主题topic,d表示文档doc,w表示word
然后LDA:
LDA跟PLSA的不同之处在于贝叶斯学派的人认为参数虽然是未知,但是不是固定的,是符合某种分布的(Dirichlet分布,分布之上的分布),比如说
对于一篇文章,假设有三个主题,z1,z2,