LDA要点个人总结

最新推荐文章于 2023-01-02 22:05:03 发布

smartcat2010

最新推荐文章于 2023-01-02 22:05:03 发布

阅读量295

点赞数

分类专栏：经典机器学习

本文链接：https://blog.csdn.net/smartcat2010/article/details/100174914

版权

经典机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

LDA是带有隐变量的生成模型，狄利克雷分布的参数 $\alpha 和\beta$ 和 $\beta$ 是生成模型的参数，所有文章的所有词w们是观测值X，每篇文章的主题分布 $\theta$ 和每个主题的词分布 $\varphi$ 是隐变量。

LDA贝叶斯网络的那张经典图的解释：每个主题的词分布，全局只采样一次，之后就固定住了；同理每篇文章的主题分布也只采样一次；生成一个词的时候，先根据主题分布采样得到该词的主题，再根据该主题的词分布采样得到该词；

词分布和主题分布的先验分布（2个都是狄利克雷分布）---采样--->词分布和主题分布(2个都是多项式分布)---主题采样-->得到主题--词采样-->得到词。

已知 $\alpha 和\beta$ 和 $\beta$ 和所有文章所有词w，如何求隐变量 $\theta$ 们和 $\varphi$ 们：吉布斯采样法。

吉布斯采样法：1. $\alpha 和\beta$ 和 $\beta$ 和所有其他词词面w和主题z都确定，且当前词的词面w也确定，只有当前词的主题z[i]不确定，求z[i]属于各个主题的分布; 2.按这个该词的主题分布采样得到该词的主题；3.当前词滑动到下一个，跳转到1

吉布斯采样公式推导：

1. 对所有的主题k求p(z[i]=k | $\alpha 和\beta$ , $\beta$ ,all w, all z except z[i]) , 根据条件概率公式，正比于p( $\alpha 和\beta$ , $\beta$ ,all w, all z)/p( $\alpha 和\beta$ , $\beta$ ,all w, all z except z[i]);

2. 再次根据条件概率公式，分子等于p(all w | $\alpha 和\beta$ , $\beta$ , all z)*p(all z| $\alpha 和\beta$ , $\beta$ )，分母也同理拆成2部分乘积；

3. 两部分其实是类似得求解；以p(all w | $\alpha 和\beta$ , $\beta$ , all z)为例，先根据主题k的独立性，拆成p(w $\in$ 主题k | $\alpha 和\beta$ , $\beta$ , all z $\in$ 主题k)连乘K次；

4. 求解p(w $\in$ 主题k | $\beta$ , all z $\in$ 主题k), 对所有词分布 $\varphi$ [k]积分，等于 $\int$ p(w| $\varphi$ ,z)p( $\varphi$ | $\beta$ )d $\varphi$

5. p( $\varphi$ | $\beta$ )写成狄利克雷分布的式子（V个项概率连乘)，p(w| $\varphi$ ,z)写成V个项连乘；这里的V是词典大小(vocabulary size)，不是文章长度；前V个项和后V个项合并到V个项连乘，类似后验概率的狄利克雷分布，最终式子得到 $\bigtriangleup$ (n[k]+ $\beta$ )/ $\bigtriangleup$ $\beta$ ( $\bigtriangleup$ $\beta$ 是狄利克雷分布的积分和，也是归一化项）

6. 把5的结果带入到3，得到K个式子连乘；

7. 把6的结果类比得到p(all z| $\alpha 和\beta$ , $\beta$ )，两者带入到2和1，消去分子分母相同的项，再把 $\bigtriangleup$ 展开成 $\tau$ ，再把 $\tau$ 展开成广义n!，得到最终结果；

8. 最终结果，直观来看，就是在不计算当前词i的前提下（设词i的值为t)，本文章内主题k的频率*主题k里词t的频率；（其实就是不计算词i的 $\theta$ [m][k]* $\varphi$ [k][t] ); 跟普通的频率相比，增加了 $\alpha 和\beta$ 和 $\beta$ 做"伪计数"

吉布斯采样很多轮迭代，结束之后，p( $\theta$ [m] | $\alpha 和\beta$ ,z[m]), 使用贝叶斯公式，正比于p(z[m] | $\theta$ [m])*p( $\theta$ [m] | $\alpha 和\beta$ ), 等于狄利克雷后验分布Dir(n[m]+ $\alpha 和\beta$ ), n[m]是第m篇文章每个主题的词频形成的向量；同理p( $\varphi$ [k] | $\beta$ ,z[k], w[k])=Dir(n[k]+ $\beta$ )

最后，取得主题分布 $\theta$ [m]取狄利克雷分布Dir(n[m]+ $\alpha 和\beta$ )的数学期望即可，即 $\theta$ [m][k]=(n[m][k]+ $\alpha 和\beta$ [k]) / k个分子之和； $\varphi$ [m]同理；

也可以用TF-IDF值，代替“词频”，输入LDA来做；

NMF矩阵分解，只有拟合，没有 $\alpha 和\beta$ 和 $\beta$ 生成主题分布和词分布这说；

LDA适合长文本；pLSA适合短文本；

smartcat2010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LDA要点个人总结

LDA是带有隐变量的生成模型，狄利克雷分布的参数和是生成模型的参数，所有文章的所有词w们是观测值X，每篇文章的主题分布和每个主题的词分布是隐变量。LDA贝叶斯网络的那张经典图的解释：每个主题的词分布，全局只采样一次，之后就固定住了；同理每篇文章的主题分布也只采样一次；生成一个词的时候，先根据主题分布采样得到该词的主题，再根据该主题的词分布采样得到该词；词分布和主题分布的先验分布（2个都是狄...
复制链接

扫一扫

专栏目录