EM算法推导pLSA

最新推荐文章于 2021-10-23 22:04:20 发布

威化饼的一隅

最新推荐文章于 2021-10-23 22:04:20 发布

阅读量980

点赞数 2

分类专栏：杂项文章标签： EM PLSA 期望最大浅层语义模型模式识别

本文链接：https://blog.csdn.net/qq_37734256/article/details/90706243

版权

杂项专栏收录该内容

7 篇文章 0 订阅

订阅专栏

简介

概率潜在语义分析(Probabilistic Latent Semantic Analysis)模型简称pLSA。可以使用EM算法来估计pLSA的参数。

已知

有文档集合 $D=\{d_1,...,d_N\}$ ，词语集合 $W=\{w_1,...,w_M\}$ ，文档的（不可观测的隐变量）类别集合 $Z=\{z_1,...,z_K\}$ 。可以知道生成过程如下：
p(d_i)选取到文档d_i $\implies$ p(z_k|d_i)的概率文档d_i属于类别z_k $\implies$ p(w_j|z_k)的概率z_k类的文档中有单词w_j

能观测得到的数据是 $n(d_i,w_j)$ ，而 $Z$ 是观测不到的

独立性假设： $p(d_i,w_j|z_k)=p(d_i|z_k)\,p(w_j|z_k)\qquad(1)$

参数

需要求解的pLSA的参数是 $p(z_k|d_i)$ 和 $p(w_j|z_k)$ ，因为：
$\begin{aligned}p(d_i,w_j)&=\sum_{k=1}^{K}p(z_k,d_i,w_j) =\sum_{k=1}^{K}p(d_i,w_j|z_k)p(z_k)\\&=\sum_{k=1}^{K}p(d_i|z_k)p(w_j|z_k)p(z_k)\;[*独立性假设(1)*]\\&=p(d_i,z_k)p(w_j|z_k) \\&=\sum_{k=1}^{K}p(z_k|d_i)p(d_i)p(w_j|z_k) \\&=p(d_i)\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k) \qquad\qquad(2) \end{aligned}$
而由（2），联合概率转为条件概率：
$p(w_j|d_i)=\frac{p(d_i,w_j)}{p(d_i)}=\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k)\qquad(3)$

（好像也可以这么考虑，从 $d_i$ 生成 $z_k$ ，是 $p(z_k|d_i)$ ，固定 $d_i$ ，有 $z_k$ 类文档，所以会有 $\sum_{k=1}^{K}$ ，而文档对应的是单个单词 $w_j$ ，所以 $p(w_j|d_i)会是如上形式$ ）

“极大似然”

要使得 $p (D, W)$ 最大，也就是使得 $L$ 最大，表示文档 $d_i$ 中出现单词 $w_j$ 为 $n(d_i,w_j)$ 的概率，累乘得到 $L$ ，这和极大似然估计里面是一样的，使得由参数生成这样子的样本的可能性最大:
$\begin{aligned}L &=\prod_{i=1}^{N}\prod_{j=1}^{M}[p(d_i,w_i)]^{n(d_i,w_j)} \\&=\prod_{i=1}^{N}\prod_{j=1}^{M}[p(d_i)\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k)]^{n(d_i,w_j)} \end{aligned}$

采用对数似然函数 $l o g L$ ，累乘变成累加，有：
$\begin{aligned}logL&=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)log[p(d_i)\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k)]\\ &=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)log\,p(d_i)\;+\;\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)log[\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k)]\;(4) \end{aligned}$
观察式（4），可以发现，现在要极大 $l o g L$ ,但是前半部分的 $n(d_i,w_j)$ 是可以观察得到的， $p(d_i)$ 也是可以观察得到的，都不是变量，都是常数，这种情况下，极大 $l o g L$ ，则只考虑后半部分，后半部分记做 $L_1$ 。继续推导
$\begin{aligned}L_1&=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)log[\sum_{k=1}^{K}Q_k(z_k)\frac{p(z_k|d_i)p(w_j|z_k)}{Q_k(z_k)}]\\ &\ge\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}Q_k(z_k)log[\frac{p(z_k|d_i)p(w_j|z_k)}{Q_k(z_k)}]\quad(5) \end{aligned}$
上式中，得到 $L_1\ge(5)$ ，是由于Jensen不等式: $log\sum_{j}\lambda_jy_j\ge\sum_{j}\lambda_jlogy_j\qquad\lambda_j\ge0,\sum_{j}\lambda_j=1$

我们需要随便选择一个 $Q_k(z_k)$ ，使得 $\frac{p(z_k|d_i)p(w_j|z_k)}{Q_k(z_k)}=c$
$c$ 是一个常数，不依赖于 $z_k$ 。这样的 $Q_k(z_k)$ 有很多，但是可以这样取，取为 $p(z_k|d_i,w_j)$ 。因为有：
$\begin{aligned} p(z_k|d_i,w_j)&=\frac{p(z_k,d_i,w_j)}{p(d_i,w_j)}=\frac{p(d_i,w_j|z_k)p(z_k)}{p(d_i,w_j)}\\ &=\frac{p(d_i|z_k)p(w_j|z_k)p(z_k)}{p(d_i,w_j)}\\ &=\frac{p(w_j|z_k)p(z_k|d_i)p(d_i)}{p(d_i,w_j)}\\ &=\frac{p(w_j|z_k)p(z_k|d_i)}{\sum_{k=1}^{K}p(z_k|d_i)p(w_j|z_k)}\qquad(6) \end{aligned}$

把 $Q_k(z_k)$ 带入(5)可得：
$\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)log[\frac{p(z_k|d_i)p(w_j|z_k)}{p(z_k|d_i,w_j)}]\qquad(7)$

(7)中，log部分下面的分母在求极大时可以省去，因为在 $l o g$ 函数对参数 $p(z_k|d_i)$ 和 $p(w_j|z_k)$ 求偏导数时，如(ln5x)’=1/x，所以可以省去，如果保留，在下面也会发现不影响。

(7)省去了log下的分母后，得到：
$f=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)log[p(z_k|d_i)p(w_j|z_k)]\qquad(8)$
所以接下来要做的就是最大化（8）。

EM算法

E-step：更新 $Qz(z_k)=p(z_k|d_i,w_j)$
M-step：最大化式（8），得到参数 $p(z_k|d_i)$ 和 $p(w_j|z_k)$
约束条件：
$\begin{aligned}s.t.&\sum_{k=1}^{K}p(z_k|d_i)=1\\ &\sum_{j=1}^{M}p(w_j|z_k)=1 \end{aligned}$
通过不断求取下界最大化（ $\ge$ ），逼近似然极大化。

拉格朗日法极大化(8)

使用拉格朗日法求驻点，构造函数 $L g$ :
$Lg=f+\sum_{i=1}^{N}\rho_i[1-\sum_{k=1}^{K}p(z_k|d_i)]+\sum_{i=1}^{N}\tau_i[1-\sum_{j=1}^{M}p(w_j|z_k)]$

对 $L g$ 的变量 $p(z_k|d_i)$ 求偏导得到：
$\nabla_{p(z_k|d_i)}Lg=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}\frac{p(z_k|d_i,w_j)}{p(z_k|d_i)}\;-\;\sum_{k=1}^{K}\sum_{i=1}^{N}\rho_i\;=0$
对于减号左右两项， $p(z_k|d_i)$ 都是对k和i的累加(右边现在还没有)，可以两边同时乘以 $p(z_k|d_i)$ ，得：
$\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)=\sum_{i=1}^{N}\sum_{k=1}^{K}\rho_ip(z_k|d_i)\qquad(9)$
而由约束条件 $\sum_{k=1}^{K}p(z_k|d_i)=1$ ，所以从上式求得：
$\rho_i=\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)$
因为 $\sum_{k=1}^{K}p(z_k|d_i,w_j)\;=1$ ，所以 $\rho_i$ 也可以表示为 $\rho_i=n(d_i)$ 。

继续，对于 $L g$ 的变量 $p(w_j|z_k)$ 求偏导得到：
$\nabla_{p(w_j|z_k)}Lg=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}\frac{p(z_k|d_i,w_j)}{p(w_j|z_k)}\;-\;\sum_{i=1}^{M}\sum_{k=1}^{K}\tau_k\;=0$
$\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}\frac{p(z_k|d_i,w_j)}{p(w_j|z_k)}=\sum_{i=1}^{M}\sum_{k=1}^{K}\tau_k$
两边乘上 $p(w_j|z_k)$ 得：
$\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)=\sum_{k=1}^{K}\tau_k\sum_{i=1}^{M}p(w_j|z_k)\qquad(10)$
由约束条件 $\sum_{j=1}^{M}p(w_j|z_k)=1$ ，得：
$\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)\sum_{k=1}^{K}p(z_k|d_i,w_j)=\sum_{k=1}^{K}\tau_k$
变形一下：
$\sum_{k=1}^{K}\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)p(z_k|d_i,w_j)=\sum_{k=1}^{K}\tau_k$
$\therefore$
$\tau_k=\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)p(z_k|d_i,w_j)$
于是，M步更新的两个参数 $p(w_j|z_k)$ 和 $p(z_k|d_i)$ 可以通过它们来表示，具体来看，先看(9)式，里面的未知量 $\rho_i$ 已经表示出来了，所以可以通过(9)求得 $p(z_k|d_i)$ ：
$\frac{\sum_{k=1}^{K}\sum_{j=1}^{M}n(d_i,w_j)p(z_k|d_i,w_j)}{\rho_i}\;=\;\sum_{k=1}^{K}p(z_k|d_i)$
$p(z_k|d_i)\;=\;\frac{\sum_{j=1}^{M}n(d_i,w_j)p(z_k|d_i,w_j)}{n(d_i)}$
可以通过(10)求解 $p(w_j|z_k)$ ：
$p(w_j|z_k)=\frac{\sum_{i=1}^{N}n(d_i,w_j)}{\tau_k}$
$p(w_j|z_k)=\frac{\sum_{i=1}^{N}n(d_i,w_j)}{\sum_{i=1}^{N}\sum_{j=1}^{M}n(d_i,w_j)p(z_k|d_i,w_j)}$