【LDA】LDA主题模型笔记—主要是狄利克雷

冰淇淋和慕斯蛋糕

已于 2022-06-16 16:35:53 修改

阅读量858

点赞数

分类专栏：机器学习-算法主题模型文章标签：概率论机器学习人工智能

于 2022-06-04 04:24:28 首次发布

本文链接：https://blog.csdn.net/qq_45721997/article/details/125118246

版权

机器学习-算法同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

主题模型

5 篇文章 0 订阅

订阅专栏

d表示文章，z表示主题，w表示单词
这里意思是，狄利克雷先验分布产生一组多项式分布集合
也就是说 狄利克雷分布 产生 主题分布 (也就是doc-topic分布)（超参数 $\alpha$ 情况下）

贝叶斯思想中：先验概率+参数估计=后验概率

beta分布：

在beta分布中 beta分布研究的是 “一个长度为k的乱序序列（序列中每个数符合均匀分布）中，第k个大的数满足什么分布”的问题。（链接中对应部分的含糊自我概括版），
也就是说，对于序列中每个数，beta可以给出这个数的一个分布，
也就是说，对序列中的每个数，只要知道这个数在集合中的排序大小，beta分布给出这个数的概率分布，概率分布可以给出这个数最有可能存在的区间范围。
其实beta分布也就是，这个数，这个序列的先验知识。

狄利克雷：

狄利克雷是beta分布的高维版本，可以得到多项式的先验分布。
我们这样假设，一组多项式分布，里面每个分布都不相同，需要得到这些决定他们不同的参数，（多项式的参数应该是p1,p2,p3…pn这种？）
然后狄利克雷分布就会产生这些多项式分布的参数的先验（先验：凭经验判断的可能的概率分布），换句话说，狄利克雷分布在没有其它条件的情况下，产生多项式参数的概率分布（一个复杂式子），在这个概率分布下随便丢一次骰子，得到多项式参数（p1:0.5,p2:0.3），也就找到了对应的多项式分布（情感：0.5,经济：0.3），然后从对应的多项式分布中丢一次骰子，得到具体的topic类别（情感）。

参考链接csdn_狄利克雷…
关于狄利克雷一些详细的推导datalearner

补充：
LDA生成过程：来源：csdn_通俗理解lda(巨长）
在这里插入图片描述另一个链接的生成方式：一个意思。通俗理解lda july

我也不知道对不对，有问题麻烦指出！！感恩！

【后续补充】
lda的其它说法：
不知道怎么得出来的：(和迪利克雷采样有关)
“ $\alpha$ 代表文档-主题密度，而 $\beta$ 代表主题-词密度，其中， $\alpha$ 值越高就代表文档由更多主题组成，而 $\alpha$ 值越低，文档包含的主题就会更少。另一方面， $\beta$ 越高就表示主题由语料库中的大量单词组成，而 $\beta$ 值越低则说明主题由越少的单词组成。”