LDA主题模型

概率图模型LDA(Latent Dirichlet Allocation)用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类

1. 基础知识

1.1 LDA属于贝叶斯模型

LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块:
后 验 分 布 = 先 验 分 布 + 数 据 ( 似 然 ) 后验分布 = 先验分布 + 数据(似然) =+

We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of discrete data such as text corpora.
LDA is a three-level hierarchical Bayesian model, in which each item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in turn, modeled as an infinite mixture over an underlying set of topic probabilities.

1.2 LDA采用词袋模型构造成词向量

在LDA中,每篇文章是用词袋模型构造成词向量。词袋模型,顾名思义,就是将文本视为一个 “装满词的袋子” ,袋子里的词语是随便摆放的,没有顺序和语义之分。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。

与词袋模型相反的一个模型是n-gram,n-gram考虑了词汇出现的先后顺序。

1.3 共轭分布

在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)的形式一样(满足同样的分布律),那么,先验分布和后验分布被叫做共轭分布。

共轭分布的提出背景:
一方面符合人的直观,另一方面可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条

比如你对好人和坏人的认知

  • 先验分布为:100个好人和100个的坏人,即你认为好人坏人各占一半;
  • 现在你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人;
  • 现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布;
  • 当你被1个好人(数据)帮助了和3个坏人(数据)骗了后,你又更新了你的后验分布为:103个好人和104个的坏人;
  • 依次继续更新下去。前面一次贝叶斯推荐的后验分布,又是后一次贝叶斯推荐的先验分布。也即是说,先验分布和后验分布的形式应该是一样的

1.3 二项分布与Beta分布共轭

1.3.1 二项分布

在n重伯努利试验(n次重复独立试验,每次试验只有2种可能结果)中,若每次试验事件A出现的概率为p,则事件A出现的次数X服从参数为(n,p)的二项分布,记为 X ∼ B ( n , k ) X\sim B(n,k) XB(n,k) B i n o m ( k ∣ n , p ) = P ( X = k ) = C n k p k ( 1 − p ) n − k ( k = 0 , 1 , . . . , n ) Binom(k|n,p)=P(X=k)=C^k_np^k(1-p)^{n-k}\quad (k=0,1,...,n) Binom(kn,p)=P(X=k)=Cnkpk(1p)nk(k=0,1,...,n)二项分布的期望: E = n p E=np E=np

1.3.2 Beta分布

对于参数 α > 0 , β > 0 \alpha > 0, \beta > 0 α>0,β>0, 取值范围为[0, 1]的随机变量x的概率密度函数为: B e t a ( p ∣ α , β ) = Υ ( α ) Υ ( β ) Υ ( α + β ) p α − 1 ( 1 − p ) β − 1 Beta(p|\alpha,\beta) =\frac{\Upsilon(\alpha)\Upsilon(\beta)}{\Upsilon(\alpha+\beta)}p^{\alpha-1}(1-p)^{\beta-1} Beta(pα,β)=Υ(α+β)Υ(α)Υ(β)pα1(1p)β1其中, Υ \Upsilon Υ是Gamma函数,是阶乘在实数集上的延拓,满足 Υ ( n ) = ( n − 1 ) ! \Upsilon(n)=(n-1)! Υ(n)=(n1)!

Beta分布的期望: E = α α + β E=\frac{\alpha}{\alpha+\beta} E=α+βα

1.4 多项分布与Dirichlet分布共轭

1.4.1 多项分布

多项分布是二项分布在多元场合的推广。

在n次重复独立试验中,每次试验可能有若干个结果,记每次试验的可能结果为 A 1 , . . . , A r , P ( A i ) = p

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值