这一段时间在看LDA主题模型,这里说一下我对LDA的理解,抛开复杂的数学、概率论、机器机器学习算法,只说思路,其他内容以后再更加详细的写。
假设有一个机器人,他想写一篇文章,每篇文章包含N个词,那么他怎么写呢???
1、Unigram model
科学家A一开始这么设计,先给机器人读大量的文章,这样这个机器人的大脑中会有S个词,这些词组成了词向量 W=[w1,w2,w3......wS] ,每一个词都有相对应的概率 P=[p(w1),p(w2),p(w3)......p(wS) 。
算法如下:
for i = 1 to N:
choose a word wi~p(W)
数学表示即:
2、Mixture of unigrams
科学家B觉得不应该这样,他认为机器人读的这些文章分成不同的主题 Z=[z1,z2....