Latent Dirichlet Allocation(LDA)主题模型理论

LDA(Latent Dirichlet Allocation)是一种文本建模方法,它假设文章由多个主题随机组合而成。通过模型,可以对文本进行主题分类和相似度分析。LDA基于bag of word假设,生成文档涉及选择文档长度N、主题分布θ和每个单词的主题及概率。在EM算法中,通过迭代求解参数α和β,以实现主题和单词概率的最大化。
摘要由CSDN通过智能技术生成
Latent Dirichlet Allocation(LDA)主题模型理论

LDA是给文本建模的一种方法,属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成的文章。通过对文本的建模,可以对文本进行主题分类,判断相似度等。LDA通过将文本映射到主题空间,即认为一篇文章有若干主题随机组成,从而获得文本间的关系。LDA模型有一个前提:bag of word。意思是认为文档就是一个词的集合,忽略任何语法或者出现顺序关系。
生成一篇文档按照如下步骤:
1.选择N,N服从Poisson(ξ)分布,这里N代表文档的长度。
2.选择θ,θ服从Dirichlet(α)分布,这里θ是列向量,代表的是个主题发生的概率,α是dirichlet分布的参数
3.对N个单词中的每一个:
a) 选择主题Zn,Zn服从Multinomial(θ)多项分布。Zn代表当前选择的主题
b) 选择Wn,根据p(Wn | Zn; β):在Zn条件下的多项分布。
上式中β是一个K×V的矩阵,βij = P(Wj = 1 | Zi = 1),也就是说β记录了某个主题条件下生成某个单词的概率。
LDA概率模型
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值