潜在狄利克雷分布(LDA)初探

LDA是一种词袋模型,用于文本分析,它假设文档由多个主题构成,每个词由一个主题生成。狄利克雷分布是多项式分布的共轭先验,LDA在文本生成中使用狄利克雷分布作为话题和单词的先验,以防止过拟合。LDA与PLSA的主要区别在于LDA引入了先验分布。
摘要由CSDN通过智能技术生成


潜在狄利克雷分布(Latent Dirichlet Allocation, LDA),是一种无监督学习算法,用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。对于每一个主题均可找出一些词语来描述它。

LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

多项式分布与狄利克雷分布

狄利克雷分布是多项式分布的共轭先验概率分布。

多项式分布

假设重复进行 n n n次独立随机试验,每次试验可能出现的结果有 k k k种,第 i i i种结果出现的概率为 p i p_i pi,第 i i i种结果出现的次数为 n i n_i ni,随机变量 X = ( X 1 , X 2 , … , X k ) X=(X_1,X_2,\ldots,X_k) X=(X1,X2,,Xk) 表示试验所有可能的结果的次数, X i X_i Xi表示第 i i i种结果出现的次数。那么随机变量X服从多项分布:
P ( X 1 = n 1 , X 2 = n 2 , … , X k = n k ) = n ! n 1 ! n 2 ! … n k ! p 1 n 1 p 2 n 2 … p k n k P(X_1=n_1,X_2=n_2,\ldots,X_k = n_k) = \frac{n!}{n_1!n_2!\ldots n_k!} p_1^{n_1} p_2^{n_2}\ldots p_k^{n_k} P(X1=n1,X2=n2,,Xk=nk)=n1!n2!nk!n!p1n1p2n2pknk
其中 p = ( p 1 , p 2 , . . . , p k ) , ∑ i = 1 k p i = 1 , ∑ i = 1 k n i = n p=(p_1, p_2,...,p_k),\sum_{i=1}^k p_i =1, \sum_{i=1}^k n_i =n p=(p1,p2,...,pk)i=1kpi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值