关于主题模型（从LDA到PLSA）

風坞

已于 2022-04-25 21:16:42 修改

阅读量952

点赞数 1

分类专栏：深度学习课程笔记文章标签：深度学习

于 2022-04-23 10:51:03 首次发布

本文链接：https://blog.csdn.net/m0_52414727/article/details/124355519

版权

深度学习课程笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

以下内容有部分源于课件，主要是上课推导太快了没听明白所以这里又来整理了一遍。

LDA

首先是从LSA入手。他对于一篇文章的初始标识和向量空间模型相似，使用词表维度的向量来表示，但是向量内的元素是单词在文档中出现的次数。

SVD for LDA

此外，我们了解一下奇异值分解（SVD）：
$A_{m×n} = U_{m×m}\Sigma_{m×n} V_{n×n}^T$
其中， $U$ 为左奇异矩阵， $V$ 为右奇异矩阵， $\Sigma$ 为奇异值矩阵，且 $U, V$ 都是正交矩阵。这里要提到一个SVD的性质：在奇异值矩阵中按序排列，奇异值减少很迅速（很多时候前10%甚至1%就占了全部奇异值之和的99%以上），也就是说我们可以用最大的K个其意志和对应的左右奇异向量来描述近似矩阵。

这里就是想要找到一个比较小的值k，保留前k个奇异向量和奇异值，其中 $U$ 的维度从 $m \times m$ 变成了 $m \times k$ , $V$ 的维度从 $n \times n$ 变成了 $m \times k$ ， $Σ$ 的维度从 $m \times n$ 变成了 $k \times k$ 的方阵，从而达到降维效果。
$A_{m×n} = U_{m×m}\Sigma_{m×n} V_{n×n}^T \approx U_{m×k}\Sigma_{k×k} V_{m×k}^T$
请添加图片描述

把上面的SVD应用到主题模型，可以认为：

K是主题数；
经过SVD分解后， $U_{i,l}$ 对应第 $i$ 个单词和第 $l$ 个词义类的相关性，矩阵 $U$ 就是词-词义类矩阵；
$V_{l,j}$ 表示第 $j$ 篇文档与第 $l$ 个主题的相关性，矩阵 $V$ 是主题-文档矩阵；
$\Sigma_{l,l}$ 表示第 $l$ 个词义类与第 $l$ 个主题之间的相关性。

EM for LDA

EM算法

首先了解一下一般的EM算法：

对于观测变量 $X$ 和潜在变量 $Z$ ，在参数 $\theta$ 控制下，根据分布 $p(X,Z|\theta)$ ，目标为最大化关于 $\theta$ 的可能性 $p(X|\theta)$ 。

过程描述如下：

为 $\theta^{old}$ 选一个初始设定（初始化）
E step来计算 $p(Z|X,\theta^{old})$
M step来计算 $\theta^{new}$ ： $\theta^{new}=arg max_\theta Q(\theta, \theta^{old})\\ Q(\theta, \theta^{old}) = \sum_Z p(Z|X,\theta^{old}) \ln p(X,Z|\theta)$
检查对数似然或参数值的收敛性，如果不满足收敛准则，就计算 $\theta^{old}\leftarrow\theta^{new}$ ，并返回第2.步

EM for LDA

通常根据迪利克雷分布采样得到单词和主题、文档和主题的分布，并基于主题采样单词、基于文本采样主题。

可以抽象为下面的上帝掷骰子：
请添加图片描述

Gibbs Sampling for LDA

变量初设

假设语料库中有M篇文档，所有的word和topic如下表示：
$\overrightarrow{\pmb w} = (\overrightarrow{w}_1, \cdots，\overrightarrow{w}_M)\\ \overrightarrow{\pmb z} = (\overrightarrow{z}_1,\cdots,\overrightarrow{z}_M)\\ 其中,\\ \overrightarrow{w}_m表示第m篇文档中的词，\\\overrightarrow{z}_m表示这些词对应的topic编号\\ 注意\overrightarrow{w}和\overrightarrow{z}都是由更小的、代表每篇文章内内容的向量构成的$

结合LDA分析推导过程

LDA可以分为以下两个主要的物理过程

$\overrightarrow\alpha \rightarrow \overrightarrow\theta_m \rightarrow z_{m,n}$ ，表示在生成第 $m$ 篇文档的时候，现从第一个坛子中抽一个doc-topic骰子 $\overrightarrow\theta_m$ ，然后投掷这个骰子生成了文档中第 $n$ 个词的topic编号 $z_{m,n}$ 。
$\overrightarrow\beta \rightarrow \overrightarrow\psi_k \rightarrow w_{m,n}|k=z_{m,n}$ ，表示你用如下动作生成语料中第m篇文档的第n个词：在上帝手下的K个topic-word骰子 $\overrightarrow\psi_k$ 中，挑选编号为 $k=z_{m,n}$ 的那个骰子进行透支，然后生成word $w_{m,n}$ 。

过程一

对于过程一，显然 $\overrightarrow\alpha \rightarrow \overrightarrow\theta_m$ 对应于Dirichlet分布， $\theta_m \rightarrow z_{m,n}$ 对应于Mutinomial分布，所以说整体上有 $D i r i c h l e t - M u t i n o m i a l$ 共轭结构：
$p(\overrightarrow z_m|\overrightarrow\alpha)=\frac{\Delta(\overrightarrow n_m+\overrightarrow\alpha)}{\Delta(\overrightarrow\alpha)}$
其中 $\overrightarrow n_m=(\overrightarrow n_m^{(1)},\cdots,\overrightarrow n_m^{(K)})$ ， $\overrightarrow n_m^{(k)}$ 表示第 $m$ 篇文档中第 $k$ 个topic产生的词的数量。

进一步，利用 $D i r i c h l e t - M u t i n o m i a l$ 共轭结构，我们得到参数 $\overrightarrow\theta_m$ 的后验分布恰好是： $Dir(\overrightarrow\theta_m|\overrightarrow n_m + \overrightarrow\alpha)$
由于语料库中M篇文档的topics生成过程相互独立，所以我们得到M个相互独立的 $D i r i c h l e t - M u t i n o m i a l$ 共轭结构，从而我们可以得到整个语料中topics生成概率： $p(\overrightarrow{\pmb z}|\overrightarrow{\alpha})=\prod_{m=1}^Mp(\overrightarrow{z_m}|\overrightarrow{\alpha})=\prod_{m=1}^M\frac{\Delta(\overrightarrow n_m+\overrightarrow\alpha)}{\Delta(\overrightarrow\alpha)}$

过程二

在语料中所有词的topic已经生成的条件下，任何两个word的生成动作都是可交换的，于是我们把语料中的词进行交换，把具有相同topic的词放在一起：
$\overrightarrow{\pmb w} = (\overrightarrow{w}_{(1)}, \cdots，\overrightarrow{w}_{(M)})\\ \overrightarrow{\pmb z} = (\overrightarrow{z}_{(1)},\cdots,\overrightarrow{z}_{(M)})$
从而有：
$p(\overrightarrow w_{(k)}| \overrightarrow \beta)=\frac{\Delta(\overrightarrow n_k+\overrightarrow\beta)}{\Delta(\overrightarrow\beta)}$
其中， $\overrightarrow n_k=(n_k^{(1)},\cdots,n_k^{(V)})$ ， $n_k^{(t)}$ 表示第 $k$ 个topic产生的词中word t的个数

综合

利用共轭结构，我们得到参数 $\overrightarrow\psi_k$ 的后验分布恰好是： $Dir(\overrightarrow\psi_k|\overrightarrow n_k + \overrightarrow\beta)$
而利用K个相互独立的topics生成words的过程，借助K个独立共轭结构，可以得到整个语料中词生成概率： $p(\overrightarrow{\pmb{w}}|\overrightarrow{\pmb{z}}, \overrightarrow\beta)=p(\overrightarrow{\pmb{w}}\prime|\overrightarrow{\pmb{z}}\prime, \overrightarrow\beta)=\prod_{k=1}^Kp(\overrightarrow w_{(k)}|\overrightarrow z_{(k)}, \overrightarrow \beta)=\prod_{k=1}^K\frac{\Delta{(\overrightarrow n_k+\overrightarrow \beta)}}{\Delta(\overrightarrow \beta)}$
结合 $p(\overrightarrow{{w}}|\overrightarrow{{z}}, \overrightarrow\beta)$ 和 $p(\overrightarrow{{z}}|\overrightarrow\alpha)$ 可以得到联合分布：
$p(\overrightarrow{{z}},\overrightarrow{{w}}|\overrightarrow\alpha,\overrightarrow\beta)=\prod_{k=1}^K\frac{\Delta{(\overrightarrow n_k+\overrightarrow \beta)}}{\Delta(\overrightarrow \beta)}*\prod_{m=1}^M\frac{\Delta(\overrightarrow n_m+\overrightarrow\alpha)}{\Delta(\overrightarrow\alpha)}$
请添加图片描述

算法模型

综上我们有算法模型如下：
请添加图片描述

PLSA

有以下参数和推导关系：
$\theta_d=p(z|d) \\ \psi_k = p(w|z_k)\\ p(w|d_m)=\sum_{z=1}^Kp(w|z)p(z|d_m)=\sum_{z=1}^K\psi_{zw}\theta_{mz}\\ p(\overrightarrow{w}|d_m)=\prod_{i=1}^n\sum_{z=1}^Kp(w_i|z)p(z|d_m)=\prod_{i=1}^n\sum_{z=1}^K\psi_{zw_i}\theta_{dz}$
第一行 $\theta_d$ 表示对于每篇文档而言topic的概率；
第二行 $\psi_k$ 表示对于每个topic而言单词的概率；
第三行 $p(w|d_m)$ 表示第m篇文章 $d_m$ 中每个单词的生成概率；
由此可知第四行 $p(\overrightarrow{w}|d_m)$ 表示的整篇文档的生成概率