d表示文章,z表示主题,w表示单词
这里意思是,狄利克雷先验分布 产生 一组 多项式分布集合
也就是说 狄利克雷分布 产生 主题分布 (也就是doc-topic分布)(超参数
α
\alpha
α情况下 )
贝叶斯思想中:先验概率+参数估计=后验概率
beta分布:
在beta分布中 beta分布研究的是 “一个长度为k的乱序序列(序列中每个数符合均匀分布)中,第k个大的数满足什么分布”的问题。(链接中对应部分的含糊自我概括版),
也就是说,对于序列中每个数,beta可以给出这个数的一个分布,
也就是说,对序列中的每个数,只要知道这个数在集合中的排序大小,beta分布给出这个数的概率分布,概率分布可以给出这个数最有可能存在的区间范围。
其实beta分布也就是,这个数,这个序列的先验知识。
狄利克雷:
狄利克雷是beta分布的高维版本,可以得到多项式的先验分布。
我们这样假设,一组多项式分布,里面每个分布都不相同,需要得到这些决定他们不同的参数,(多项式的参数应该是p1,p2,p3…pn这种?)
然后狄利克雷分布就会产生这些多项式分布的参数的先验(先验:凭经验判断的可能的概率分布),换句话说,狄利克雷分布在没有其它条件的情况下,产生多项式参数的概率分布(一个复杂式子),在这个概率分布下随便丢一次骰子,得到多项式参数(p1:0.5,p2:0.3),也就找到了对应的多项式分布(情感:0.5,经济:0.3),然后从对应的多项式分布中丢一次骰子,得到具体的topic类别(情感)。
参考链接csdn_狄利克雷…
关于狄利克雷一些详细的推导datalearner
补充:
LDA生成过程 :来源:csdn_通俗理解lda(巨长)
另一个链接的生成方式:一个意思。通俗理解lda july
我也不知道对不对,有问题麻烦指出!!感恩!
【后续补充】
lda的其它说法:
不知道怎么得出来的:(和迪利克雷采样有关)
“
α
\alpha
α代表文档-主题密度,而
β
\beta
β代表主题-词密度,其中,
α
\alpha
α值越高就代表文档由更多主题组成,而
α
\alpha
α值越低,文档包含的主题就会更少。另一方面,
β
\beta
β越高就表示主题由语料库中的大量单词组成,而
β
\beta
β值越低则说明主题由越少的单词组成。”
参考:知乎-