【LDA】LDA主题模型笔记—主要是狄利克雷

d表示文章,z表示主题,w表示单词
这里意思是,狄利克雷先验分布 产生 一组 多项式分布集合
也就是说 狄利克雷分布 产生 主题分布 (也就是doc-topic分布)(超参数 α \alpha α情况下 )

贝叶斯思想中:先验概率+参数估计=后验概率

beta分布:

beta分布中 beta分布研究的是 “一个长度为k的乱序序列(序列中每个数符合均匀分布)中,第k个大的数满足什么分布”的问题。(链接中对应部分的含糊自我概括版),
也就是说,对于序列中每个数,beta可以给出这个数的一个分布
也就是说,对序列中的每个数,只要知道这个数在集合中的排序大小,beta分布给出这个数的概率分布,概率分布可以给出这个数最有可能存在的区间范围。
其实beta分布也就是,这个数,这个序列的先验知识

狄利克雷:

狄利克雷是beta分布的高维版本,可以得到多项式的先验分布
我们这样假设,一组多项式分布,里面每个分布都不相同,需要得到这些决定他们不同的参数,(多项式的参数应该是p1,p2,p3…pn这种?)
然后狄利克雷分布就会产生这些多项式分布的参数的先验(先验:凭经验判断的可能的概率分布),换句话说,狄利克雷分布在没有其它条件的情况下,产生多项式参数的概率分布(一个复杂式子),在这个概率分布下随便丢一次骰子,得到多项式参数(p1:0.5,p2:0.3),也就找到了对应的多项式分布(情感:0.5,经济:0.3),然后从对应的多项式分布中丢一次骰子,得到具体的topic类别(情感)。

参考链接csdn_狄利克雷…
关于狄利克雷一些详细的推导datalearner

补充:
LDA生成过程 :来源:csdn_通俗理解lda(巨长)
在这里插入图片描述另一个链接的生成方式:一个意思。通俗理解lda july
在这里插入图片描述

我也不知道对不对,有问题麻烦指出!!感恩!

【后续补充】
lda的其它说法:
不知道怎么得出来的:(和迪利克雷采样有关)
α \alpha α代表文档-主题密度,而 β \beta β代表主题-词密度,其中, α \alpha α值越高就代表文档由更多主题组成,而 α \alpha α值越低,文档包含的主题就会更少。另一方面, β \beta β越高就表示主题由语料库中的大量单词组成,而 β \beta β值越低则说明主题由越少的单词组成。”

参考:知乎-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值