LDA要点个人总结

LDA是带有隐变量的生成模型,狄利克雷分布的参数\alpha 和\beta\beta是生成模型的参数,所有文章的所有词w们是观测值X,每篇文章的主题分布\theta和每个主题的词分布\varphi是隐变量。

LDA贝叶斯网络的那张经典图的解释:每个主题的词分布,全局只采样一次,之后就固定住了;同理每篇文章的主题分布也只采样一次;生成一个词的时候,先根据主题分布采样得到该词的主题,再根据该主题的词分布采样得到该词;

词分布和主题分布的先验分布(2个都是狄利克雷分布)---采样--->词分布和主题分布(2个都是多项式分布)---主题采样-->得到主题--词采样-->得到词。

已知\alpha 和\beta\beta和所有文章所有词w,如何求隐变量\theta们和\varphi们:吉布斯采样法。

吉布斯采样法:1. \alpha 和\beta\beta和所有其他词词面w和主题z都确定,且当前词的词面w也确定,只有当前词的主题z[i]不确定,求z[i]属于各个主题的分布; 2.按这个该词的主题分布采样得到该词的主题;3.当前词滑动到下一个,跳转到1

吉布斯采样公式推导:

1. 对所有的主题k求p(z[i]=k | \alpha 和\beta,\beta,all w, all z except z[i]) , 根据条件概率公式,正比于p(\alpha 和\beta,\beta,all w, all z)/p(\alpha 和\beta,\beta,all w, all z except z[i]);

2. 再次根据条件概率公式,分子等于p(all w | \alpha 和\beta,\beta, all z)*p(all z|\alpha 和\beta,\beta),分母也同理拆成2部分乘积;

3. 两部分其实是类似得求解;以p(all w |  \alpha 和\beta,\beta, all z)为例,先根据主题k的独立性,拆成p(w\in主题k | \alpha 和\beta,\beta, all z\in主题k)连乘K次

4. 求解p(w\in主题k | \beta, all z\in主题k), 对所有词分布\varphi[k]积分,等于\intp(w|\varphi,z)p(\varphi|\beta)d\varphi

5. p(\varphi|\beta)写成狄利克雷分布的式子(V个项概率连乘),p(w|\varphi,z)写成V个项连乘;这里的V是词典大小(vocabulary size),不是文章长度;前V个项和后V个项合并到V个项连乘,类似后验概率的狄利克雷分布,最终式子得到\bigtriangleup(n[k]+\beta)/\bigtriangleup\beta  (\bigtriangleup\beta是狄利克雷分布的积分和,也是归一化项)

6. 把5的结果带入到3, 得到K个式子连乘;

7. 把6的结果类比得到p(all z|\alpha 和\beta,\beta),两者带入到2和1,消去分子分母相同的项,再把\bigtriangleup展开成\tau,再把\tau展开成广义n!,得到最终结果;

8. 最终结果,直观来看,就是在不计算当前词i的前提下(设词i的值为t),本文章内主题k的频率*主题k里词t的频率;( 其实就是不计算词i的\theta[m][k]*\varphi[k][t] );  跟普通的频率相比,增加了\alpha 和\beta\beta做"伪计数"

吉布斯采样很多轮迭代,结束之后,p(\theta[m] | \alpha 和\beta,z[m]), 使用贝叶斯公式,正比于p(z[m] | \theta[m])*p(\theta[m] | \alpha 和\beta), 等于狄利克雷后验分布Dir(n[m]+\alpha 和\beta), n[m]是第m篇文章每个主题的词频形成的向量;同理p(\varphi[k] | \beta,z[k], w[k])=Dir(n[k]+\beta)

最后,取得主题分布\theta[m]取狄利克雷分布Dir(n[m]+\alpha 和\beta)的数学期望即可,即\theta[m][k]=(n[m][k]+\alpha 和\beta[k]) / k个分子之和;  \varphi[m]同理;

 

LDA的评价标准:极大似然法,p(w|model)=所有词w[i]的p(w[i] | model)连乘, p(w[i] | model)=所有主题k的p(w[i] | k)*p(k | model)之和;类似先写成NMF的矩阵相乘形式,求出所有单词w[i]的似然概率,然后连乘起来;也就是\theta[m]乘以\varphi矩阵的第t列(t是w[i]的词id)

也可以用TF-IDF值,代替“词频”,输入LDA来做;

 

NMF矩阵分解,只有拟合,没有\alpha 和\beta\beta生成主题分布和词分布这说;

LDA适合长文本;pLSA适合短文本;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值