LDA 理解

LDA相对于PLSA在理论上更美,并且有多种扩展,包括有监督的,松弛bag-of-word假设的,以及Sparse化的主题模型。理论上来说LDA模型的训练的参数较少,并不会随着文档集合的增加而快速变化,不容易造成over-fitting 问题,模型的范化能力也较强。PLSA训练的过程中需要学习 K×V+K×D个参数,V表示文档集合中的单词数量,D表示文档集合中的文档数量,使用EM算法来求解模型参数。这篇博客写的很详细(http://blog.tomtung.com/2011/10/plsa)

通过使用经验发现,文档较短时LDA效果并不理想。





训练模型参数时主要存在两种思路,Blei的做法是使用变分EM的方法,利用变分理论寻找后验概率的下限,通过不断提高下限来近似后验概率的最大化,学习模型参数。计算后验概率的过程中需要好似用共轭分布的特性简化过程,对CS出身的人来说看起来十分痛苦,需要很多数学知识。使用变分的方法存在一个最大的不足在于增加了模型的独立性假设,将模型修改如下





另外一种思路是使用Gibbs Sampling的方法,通过不断抽样使得MCMC收敛于一个联合概率。抽样的过程将每个文档中的每个单词所属的主题作为坐标轴,沿所有的坐标轴进行抽样。状态之间的转移概率依赖于每个单词所属的主题和每个文档包含的主题数量。Gibbs Sampling 的方法易于理解,计算速度快。由于模型中的隐含变量较多,故现有的研究方法使用collapsed Gibbs Sampling,   Dirchlet  分布中的hyper-parameter  用来平滑文档特征向量和单词特征向量的,设置较小的参数值能够实现sparse 的主题分布向量。  \alpha 表示了文档之间的在语义上的不同的有多大, 而参数\beta表示了通常情况下共现的的单词集合有多大。理论上述Blei提出的LDA模型和基于Gibbs Sampling的LDA模型对应的概率图模型并不完全一致。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值