lda主题模型困惑度_nlp中的主题模型

本文对nlp中一个极为重要的模型——主题模型LDA(Latent Dirichlet Allocation)从宏观理解与数学解释两个维度进行介绍。

1、LDA的宏观理解

谈起LDA,自然需要引入pLSA。pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文章有N个词,则对于其中的每一个词,我们首先选择一个主题z,然后在当前主题的基础上生成一个词w。

生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为

equation?tex=p%28z%7Cd%29 ,在选定主题的条件下生成词w的概率为

equation?tex=p%28w%7Cz%29 ,则给定文章d,生成词w的概率可以写成:

equation?tex=p%28w%7Cd%29%3D%5Csum_%7Bz%7D%5E%7BZ%7D%7Bp%28w%2Cz%7Cd%29%7D%3D%5Csum_%7Bz%7D%5E%7BZ%7D%7Bp%28w%7Cd%2Cz%29p%28z%7Cd%29%7D%3D%5Csum_%7Bz%7D%5E%7BZ%7D%7Bp%28w%7Cz%29p%28z%7Cd%29%7DpLSA概率图模型LDA可以看作是pLSA的贝叶斯版本,其文本生成过程与pLSA基本相同,不同的是为主题分布和词分布分别加了两个狄利克雷(Dirichlet)先验。为什么要加入狄利克雷先验呢?这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思想,将每篇文章对应的主题分布

equation?tex=p%28z%7Cd%29和每个主题对应的词分布

equation?tex=p%28w%7Cz%29看成确定的未知常数,并可以利用EM算法求解出来;

而LDA采用的是贝叶斯学派的思想,认为待估计的参数(主题分布和词分布)不再是一个固定的常数,而是服从一定分布的随机变量。这个分布符合一定的先验概率分布(即狄利克雷分布),并且在观察到样本信息之后,可以对先验分布进行修正,从而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布,是因为它为多项式分布的共轭先验概率分布,后验概率依然服从狄利克雷分布,这样做可以为计算带来便利。——《百面机器学习》LDA概率图模型

在LDA概率图模型中,α,β分别为两个狄利克雷分布的超参数,为人工设定。

补充:pLSA虽然可以从概率的角度解释了主题模型,却都只能对训练样本中的文本进行主题识别,而对不在样本中的文本是无法识别其主题的。根本原因在于NMF与pLSA这类主题模型方法没有考虑主题概率分布的先验知识,比如文本中出现体育主题的概率肯定比哲学主题的概率要高,这点来源于我们的先验知识,但是无法告诉NMF主题模型。而LDA主题模型则考虑到了这一问题,目前来说,绝大多数的文本主题模型都是使用LDA以及其变体。

2、LDA的数学基础

2.1 概率基础

(1)二项分布与多项分布

二项分布:

equation?tex=P%28K+%3D+k%29+%3D+%5Cbegin%7Bpmatrix%7D+n%5C%5C+k%5C%5C+%5Cend%7Bpmatrix%7Dp%5Ek%7B%281-p%29%7D%5E%7Bn-k%7D

多项分布:

equation?tex=P%28x_1%2C+x_2%2C+...%2C+x_k%3B+n%2C+p_1%2C+p_2%2C+...%2C+p_k%29+%3D+%5Cfrac%7Bn%21%7D%7Bx_1%21...x_k%21%7D%7Bp_1%7D%5E%7Bx_1%7D...%7Bp_k%7D%5E%7Bx_k%7D+

(2)Gamma函数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值