《统计学习方法》第九章: EM算法及其推广读书笔记

最新推荐文章于 2020-05-30 11:31:02 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2020-05-30 11:31:02 发布

阅读量437

点赞数

分类专栏：《统计学习方法》-李航文章标签：统计学习方法

本文链接：https://blog.csdn.net/liuerin/article/details/90446151

版权

《统计学习方法》-李航专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

- - 9.EM算法及其推广

9.EM算法及其推广

EM算法(expectation maximization algorithm,期望极大算法)
是一种非监督模型
是含有缺失数据的概率模型参数的极大似然估计法
算法每次迭代分两步：
- E：求期望
- M：求极大

其实k-means聚类和高斯混合模型都是EM的推广。
分类模型试图从数据的内在联系分析出数据可以分为几类，分别属于哪一类。

9.1概念

不完全数据：观测数据 $X$ (观测随机变量得到的结果数据)
完全数据：观测数据 $X$ 和隐随机变量的数据 $Z$ 。
我的理解，对于分类模型，这里的隐随机变量就是数据的类别。

9.1.1模型解释

设待估计的模型参数为 $\theta$ 。
例如对于k-means来说， $\theta$ 就是各聚类的中心 $\mu_1,\cdots,\mu_k$ ；隐变量Z就是最终的K个分类 $1,\cdots,k$ 。
对于混合高斯分布来说， $\theta$ 就是各高斯分布的参数 $\alpha_i,\mu_i,\Sigma_i$ ；隐变量Z就是K个分布 $1,\cdots,k$ 。

每个样本 $x_i$ 的真实类别 $z_i$ 是隐随机变量，未知；所以EM算法的步骤：
- 初始化 $\theta^0$
- E步: 计算 $E(z_i)$ ， $E(z_i)$ 可用 $\theta^{(n)}$ 表示。即计算在参数值为 $\theta^{(n)}$ 的情况下，样本真实类别的期望 $E(z_i)$ 。
  对于k-means，这一步计算的是在当前聚类中心为 $\mu_1^{(n)},\cdots,\mu_k^{(n)}$ 的条件下，样本的可能分类 $\hat z_i$ 。
- M步：用 $E(z_i)$ 代替 $z_i$ 带入 $L(\theta)$ ，求本轮迭代中使得极大似然函数最大的 $\theta$ ，即
  $\theta^{(n+1)}=\arg \max_{\theta}L(\theta)$ 。
  对于k-means来说，即按照上一轮聚类中心将样本集划分后，将聚类中心更新，值为当前分类子集的质心。

9.1.2极大似然函数

当数据完整时

$X$ 和 $Z$ 的联合概率分布为 $P(x,z|\theta)$
极大似然函数
$P(X,Z|\theta) = \prod_{i=1}^m P(x_i,z_i|\theta)$
对数极大似然函数为
$L(\theta)=\log P(X,Z|\theta)=\log \prod_{i=1}^m P(x_i,z_i|\theta) = \sum_{i=1}^m\log P(x_i,z_i|\theta)$

当数据不完整时

极大似然函数，假设数据集共有m个样本
$P(X|\theta) = \prod_{i=1}^m P(x_i|\theta) =\prod_{i=1}^m\Big( \sum_{z_i = j}^k P(x_i,z_i|\theta)\Big)$
其中 $j=1,\cdots,k$
对数极大似然函数
$L(\theta)=\log P(X|\theta)= \sum_{i=1}^m\log P(x_i|\theta) = \sum_{i=1}^m\log \sum_{z_i = j}^k P(x_i,z_i|\theta)$

9.2EM算法

9.2.1推导

EM算法通过一步步迭代 $\theta$ 值，逐步最大化似然函数。
假设在第n次迭代取值 $\theta^{(n)}$ ，更新 $\theta$ 值时，希望 $L(\theta) - L(\theta^{(n)})>0$ ，以此逐步最大化似然函数。
考虑两者的差
$\begin{aligned} L(\theta)-L(\theta^{(n)}) &= \sum_{i=1}^m\log \sum_{z_i = j}^k P(x_i,z_i|\theta) - \sum_{i=1}^m\log P(x_i|\theta^{(n)})\\ &=\sum_{i=1}^m\log\Big[\sum_{z_i = j}^k(P(z_i|x_i,\theta^{(n)})\frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta^{(n)})})\Big] -\sum_{i=1}^m\log P(x_i|\theta^{(n)})\\ \end{aligned}$

有Jensen不等式，当 $f (x)$ 是凸函数时 $f(\sum_i \alpha_ix_i) \geqslant \sum_i \alpha_if(x_i)$ ；此时 $f(x)=\log x$ ，满足不等式
且 $\sum_{z_i=j}^kP(z_i|x)=1$

根据两个性质，得到：
$\begin{aligned} L(\theta)-L(\theta^{(n)}) &= \sum_{i=1}^m\log\Big[\sum_{z_i = j}^k(P(z_i|x_i,\theta^{(n)})\frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta^{(n)})})\Big] -\sum_{i=1}^m\log P(x_i|\theta^{(n)})\\ &\geqslant \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta^{(n)})} - \sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log P(x_i|\theta^{(n)})\Big]\\ &= \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta^{(n)})P(x_i|\theta^{(n)})} \Big]\\ & = \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta)}{P(x_i,z_i|,\theta^{(n)})} \Big]\\ \text{令}B(\theta,\theta^{(n)}) &= L(\theta^{(n)}) + \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta)}{P(x_i,z_i|,\theta^{(n)})} \Big]\\ \text{则}L(\theta) &\geqslant B(\theta,\theta^{(n)}) \end{aligned}$
上式当 $\theta$ 取 $\theta^{(n)}$ 时等号成立,证：
$\begin{aligned} B(\theta^{(n)},\theta^{(n)}) & = L(\theta^{(n)}) + \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta^{(n)})}{P(x_i,z_i|,\theta^{(n)})} \Big]\\ &= L(\theta^{(n)}) \end{aligned}$
此时 $B(\theta,\theta^{(n)})$ 相当于 $L(\theta)$ 的下界，如果能最大化 $B(\theta,\theta^{(n)})$ ，也能够使 $L(\theta)$ 增大。
更新 $\theta^{(i+1)}$ 为使 $B(\theta,\theta^{(i)})$ 最大的值
$\begin{aligned} \theta^{(n+1)} &=\arg \max_{\theta} B(\theta,\theta^{(n)}) \\ &=\arg \max_{\theta} L(\theta^{(n)}) + \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log\frac{P(x_i,z_i|\theta)}{P(x_i,z_i|,\theta^{(n)})} \Big]\\ &= \arg \max_{\theta} \sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log P(x_i,z_i|\theta)\Big]+constant \\ &= \arg \max_{\theta} Q(\theta,\theta^{(n)}) \end{aligned}$
其中 $Q(\theta,\theta^{(n)})=\sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log P(x_i,z_i|\theta)\Big] = \sum_{i=1}^mE(\log P(x_i,z_i|\theta)\Big|x_i,\theta^{(n)})$ ;
其中 $P(z_i|x_i,\theta^{(n)})$ 是在给定观测数据 $x_i$ 和当前参数 $\theta^{(n)}$ 下，对隐变量 $z_i$ 的期望。
下图为不完全数据的对数似然函数 $L(\theta)$ 和 $B(\theta,\theta^{(i)})$ 的关系

当 $L(\theta)$ 取 $\theta^{(i)}$ 时，求 $B(\theta,\theta^{(i)})$ 曲线，求得时 $B(\theta,\theta^{(i)})$ 最大点 $\theta^{(i+1)}$ ；令 $L(\theta)$ 取 $\theta^{(i+1)}$ 时，继续求 $B(\theta,\theta^{(i+1)})$ 曲线，继续循环。

9.2.2算法

(EM算法选择不同的初值可能得到不同的参数估计值)

输入：观测变量X，隐变量数据Z，联合分布 $P(X,Z|\theta)$ ,条件分布 $P(Z|X,\theta)$ (求得Z的期望，带入联合分布中，以求未知数的最大值)
输出：模型参数 $\theta$

1)选择参数的初始值 $\theta^{(0)}$ 开始迭代；
2)E步： $\theta^{(n)}$ 为第n次迭代参数的估计值，在第n+1次迭代的E步，计算
$\begin{aligned} Q(\theta,\theta^{(n)})=\sum_{i=1}^m \Big[\sum_{z_i = j}^k P(z_i|x_i,\theta^{(n)})\log P(x_i,z_i|\theta)\Big] \end{aligned}$
此时 $P(z_i|x_i,\theta^{(n)})$ 就是在给定观测数据 $x_i$ 和当前参数估计 $\theta^{(n)}$ 下隐变量 $z_i$ 的条件概率分布
3)M步:求使 $Q(\theta,\theta^{(n)})$ 最大化的 $\theta$ ，确定第n+1次的参数估计值 $\theta^{(n+1)}$
$\theta^{(n+1)} = \arg \max_{\theta}Q(\theta,\theta^{(n)})$
4)重复2、3步，直到收敛(停止的条件，例如 $||\theta^{(n+1)} - \theta^{(n)}|| \leqslant \epsilon_1$ )

9.2.3 算法的收敛性

观测数据的似然函数 $P(X|\theta)$ 在 $\theta$ 的迭代过程中单调递增
EM算法得到的 $\theta$ 值是观测数据对数似然函数 $L(\theta)=\log P(X|\theta)$ 的局部最优解

9.3EM在高斯混合模型中的应用

高斯混合模型：样本以不同的可能性来自不同的高斯分布。
$\begin{aligned} P(x|\theta) &= \sum_z p(x,z|\theta) = \sum_z p(z|\theta)p(x|z,\theta) \\ &=\sum_{k=1}^K\alpha_k \phi(x|\theta_k) \end{aligned}$

其中 $z={1,\cdots,K}$ 是隐数据，代表取自第几个高斯分布，其中 $p(z=k|\theta)=\alpha_k$ ，代表第k个分模型的权重， $\alpha_k\geqslant 0 ,\sum_{k=1}^K \alpha_k=1$ ；
$p(x|z=k,\theta)= \phi(x|\theta_k)$ ， $\phi(x|\theta_k)$ 是高斯分布密度， $\theta_k=(\mu_k,\sigma_k^2)$ ,其中第k个分模型
$\phi(x|\theta_k) = \frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(x-\mu_k)^2}{2\sigma_k^2})$
$\theta=(\alpha_1,\cdots,\alpha_K;\theta_1,\cdots,\theta_K,\sigma_1^2,\cdots,\sigma_K^2,)$
观测数据x， $x_j = 1,2,\cdots,N$
隐变量 $\gamma_{jk}$
$\gamma_{jk}=\begin{cases}1,& \text{第j个观测来自第k个分模型}\\0,& \text{否则}\end{cases}$
因此 $E\gamma_{jk} = P(\gamma_{jk}=1)$
(样本中只有观测数据 $x_j$ ，并不知道其由哪个模型生成的观测数据)
观测数据 $x_j$ 对应的未观测数据 $r_j=(r_{j1},r_{j2},\cdots,r_{jK})$ ，取值可能为 $(1,0,\cdots,0),(0,1,\cdots,0),\cdots,(0,0,\cdots,1)$ ,只有一个值为1，其他都为0

9.3.1利用EM结论的推导

EM算法的Q函数
$\begin{aligned} Q(\theta,\theta^{(n)})=\sum_{i=1}^m \Big[\sum_{z_i = j}^K P(z_i|x_i,\theta^{(n)})\log P(x_i,z_i|\theta)\Big] \end{aligned}$
对于高斯混合模型来说:(其中 $\theta_{z_i}$ 是总参数 $\theta$ 中第 $z_i$ 个高斯分布的参数， $\alpha_{z_i}$ 是第 $z_i$ 个高斯分布的权重)
$\begin{aligned} P(x_i,z_i|\theta) &= P(x_i|z_i,\theta)P(z_i|\theta)= \alpha_{z_i}\phi(x_i|\theta_{z_i})\\ P(z_i|x_i,\theta^{(n)}) &= \frac{\alpha_{z_i}\phi(x_i|\theta_{z_i}^{(n)})}{\sum_{k=1}^K \alpha_k\phi(x_i|\theta_k^{(n)})}\\ Q(\theta,\theta^{(n)})&=\sum_{i=1}^m\Big[ \sum_{z_i = j}^K \frac{\alpha_{z_i}\phi(x_i|\theta_{z_i}^{(n)})}{\sum_{k=1}^K \alpha_k\phi(x_i|\theta_k^{(n)})}\log \alpha_{z_i}\phi(x_i|\theta_{z_i})\Big] \end{aligned}$

9.3.2书上的推导

下面的公式中，对于每个样本 $x_j$ 的参数 $r_{j1},r_{j2},\cdots,r_{jK}$ 中，只有一个值为1，其他值都为0。
那么每个样本的概率可以表示为
$p(x_j,r_j|\theta)=\prod_{k=1}^K [\alpha_k^{r_{jk}}\phi(x_j|\theta_k)^{r_{jk}}]$
所有样本的极大似然函数可以表示为
$\begin{aligned} P(x,\gamma|\theta) &= \prod_{j=1}^N\prod_{k=1}^K\big[\alpha_k^{r_{jk}}\phi(x_j|\theta_k)^{r_{jk}}\big] \\ \prod_{j=1}^N\prod_{k=1}^K\alpha_k^{r_{jk}} &= \prod_{k=1}^K\prod_{j=1}^N\alpha_k^{r_{jk}} = \prod_{k=1}^K\alpha_k^{\sum_{j=1}^Nr_{jk}}\\ &=\prod_{k=1}^K\alpha_k^{n_k} \quad \text{令nk为依赖第k个模型生成观测值的样本数}\\ P(x,\gamma|\theta)&= \prod_{k=1}^K\Big[\alpha_k^{n_k}\prod_{j=1}^N\phi(x_j|\theta_k)^{r_{jk}}\Big] \\ &= \prod_{k=1}^K\Big[\alpha_k^{n_k}\prod_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})]^{r_{jk}} \Big] \end{aligned}$
其中 $n_k = \sum_{j=1}^Nr_{jk},\sum_{k=1}^Kn_k = N$

对数似然函数
$\begin{aligned} \log P(x,\gamma|\theta)= \sum_{k=1}^K \Big\{ n_k\log \alpha_k + \sum_{j=1}^N r_{jk}[\log(\frac{1}{\sqrt{2\pi}}) - \log \sigma_k - \frac{1}{2\sigma_k^2}(x_j-\mu_k)^2] \Big\} \end{aligned}$
算法E步
$\begin{aligned} Q(\theta,\theta^{(i)}) &= E_{\gamma}[\log P(x,\gamma|\theta)|x,\theta^{(i)}] \\ &= E_{\gamma} \Big\{ \sum_{k=1}^K \Big[n_k\log \alpha_k + \sum_{j=1}^N r_{jk}[\log(\frac{1}{\sqrt{2\pi}}) - \log \sigma_k - \frac{1}{2\sigma_k^2}(x_j-\mu_k)^2] \Big]\Big\} \\ &= \sum_{k=1}^K\Big[E(n_k)\log \alpha_k + \sum_{j=1}^N E(r_{jk}) [\log(\frac{1}{\sqrt{2\pi}}) - \log \sigma_k - \frac{1}{2\sigma_k^2}(x_j-\mu_k)^2]\Big] \\ \end{aligned}$
计算
$\begin{aligned} E(n_k) &= E(\sum_{j=1}^Nr_{jk}) = \sum_{j=1}^NE(r_{jk}) \\ E(r_{jk}) &= E(r_{jk}|x,\theta^{(i)}) = P(r_{jk}=1|x,\theta^{(i)}) = \frac{P(r_{jk}=1,x|\theta^{(i)})}{P(x|\theta^{(i)})} \\ &=\frac{P(r_{jk}=1,x|\theta^{(i)})}{\sum_{k=1}^KP(r_{jk}=1,x|\theta^{(i)})} \\ &= \frac{P(r_{jk}=1|\theta^{(i)})P(x|r_{jk}=1,\theta^{(i)})}{\sum_{k=1}^KP(r_{jk}=1|\theta^{(i)})P(x|r_{jk}=1,\theta^{(i)})} \\ &= \frac{\alpha_k^{(i)}\phi(x_j,\theta_k^{(i)})}{\sum_{k=1}^K\alpha_k^{(i)}\phi(x_j,\theta_k^{(i)})} \\ \end{aligned}$
带入Q函数得到
$Q(\theta,\theta^{(i)}) = \sum_{k=1}^K\Big[\sum_{j=1}^N E(r_{jk})\log \alpha_k + \sum_{j=1}^N E(r_{jk}) [\log(\frac{1}{\sqrt{2\pi}}) - \log \sigma_k - \frac{1}{2\sigma_k^2}(x_j-\mu_k)^2]\Big]$

两种方法结果等价
$\begin{aligned} Q(\theta,\theta^{(i)}) &= \sum_{k=1}^K\Big[\sum_{j=1}^N E(r_{jk})\log \alpha_k + \sum_{j=1}^N E(r_{jk}) [\log(\frac{1}{\sqrt{2\pi}}) - \log \sigma_k - \frac{1}{2\sigma_k^2}(x_j-\mu_k)^2]\Big] \\ &= \sum_{k=1}^K\Big[\sum_{j=1}^N E(r_{jk}) \log \alpha_k \phi(x_j|\theta) \Big] \\ &= \sum_{j=1}^N \Big[\sum_{k=1}^K \frac{\alpha_k^{(i)}\phi(x_j,\theta_k^{(i)})}{\sum_{l=1}^K\alpha_l^{(i)}\phi(x_j,\theta_l^{(i)})} \log \alpha_k \phi(x_j|\theta)\Big] \end{aligned}$

算法M步

对于 $\mu_k,\sigma_k^2$ ，没有约束条件，直接对Q函数求导
$\begin{aligned} \frac{\partial Q(\theta,\theta^{(i)})}{\partial \mu_k} & = \sum_{j=1}^N E(r_{jk})[\frac{1}{2\sigma^2}(x_j-\mu_k)]=0 \\ \frac{\partial Q(\theta,\theta^{(i)})}{\partial \sigma_k^2}&= \sum_{j=1}^NE(r_{jk})[-\frac{1}{2\sigma_k^2} + \frac{1}{2\sigma_k^4}(x_j-\mu_k)^2]=0 \\ \end{aligned}$
得到
$\begin{aligned} \mu_k &=\frac{\sum_{j=1}^NE(r_{jk})x_j}{\sum_{j=1}^NE(r_{jk})} \\ \sigma_k &= \frac{\sum_{j=1}^NE(r_{jk})(x_j-\mu_k)^2}{\sum_{j=1}^NE(r_{jk})} \end{aligned}$
对于 $\alpha_k$ ,由于存在条件 $\sum_{k=1}^K\alpha_k=1$ ,原问题的拉格朗日函数为
$\begin{aligned} F(\alpha) &= Q(\alpha) + \beta(\sum_{k=1}^K\alpha_k-1)= \sum_{k=1}^K\sum_{j=1}^N E(r_{jk})\log \alpha_k + G(\text{}) + \beta(\sum_{k=1}^K\alpha_k-1) \\ \frac{\partial F(\alpha)}{\partial \alpha_k} &= \frac{\sum_{j=1}^N E(r_{jk})}{\alpha_k} + \beta = 0 \rightarrow \alpha_k = \frac{\sum_{j=1}^N E(r_{jk})}{\beta} \\ \sum_{k=1}^K\alpha_k &= \frac{\sum_{k=1}^K\sum_{j=1}^N E(r_{jk})}{\beta}=1 \rightarrow \beta=\sum_{k=1}^K\sum_{j=1}^N E(r_{jk})=N \\ \end{aligned}$
得到
$\alpha_k^2 = \frac{\sum_{j=1}^N E(r_{jk})}{N}$

9.3.3 西瓜书的推导

西瓜书上并没有利用Q函数，直接拉格朗日函数求导了
$\begin{aligned} P(x_i|\theta)&= \sum_{k=1}^K\alpha_k\phi(x_i|\theta_k)\\ L &=\sum_{j=1}^N\log \sum_{k=1}^K\alpha_k\phi(x_i|\theta_k) \\ s.t. &\quad \sum_{k=1}^K \alpha_k=1 \end{aligned}$
拉格朗日函数为
$\sum_{j=1}^N\log \sum_{k=1}^K\alpha_k\phi(x_i|\theta_k) + \lambda(\sum_{k=1}^K \alpha_k -1)$
对 $\alpha_k,\mu_k,\Sigma_k$ 求导会和用EM算法得到一样的结果

9.3.4高斯混合模型参数估计的EM算法

输入：观测数据 $x_i,\cdots,x_N$ ，高斯混合模型
输出：高斯混合模型参数

1)取参数的初始值开始迭代
2)E步：依据当前模型参数，计算分模型k对观测数据的影响度
$\hat{\gamma}_{jk} = E(\gamma_{jk})=\frac{\alpha_k^{(i)}\phi(x_j,\theta_k^{(i)})}{\sum_{k=1}^K\alpha_k^{(i)}\phi(x_j,\theta_k^{(i)})} ,\quad j=1,2,\cdots,N;k=1,2,\cdots,K$
3)M步：计算新一轮的模型参数
$\mu_k =\frac{\sum_{j=1}^NE(r_{jk})x_j}{\sum_{j=1}^NE(r_{jk})}$
$\sigma_k^2 = \frac{\sum_{j=1}^NE(r_{jk})(x_j-\mu_k)^2}{\sum_{j=1}^NE(r_{jk})}$
$\alpha_k = \frac{\sum_{j=1}^N E(r_{jk})}{N}$
4)重复2,3步至收敛

ErinLiu虎哥的铲屎员

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第九章: EM算法及其推广读书笔记

文章目录9.EM算法及其推广9.1概念9.1.1模型解释9.2EM算法9.2.1推导9.2.2算法9.2.3 算法的收敛性9.3EM在高斯混合模型中的应用9.3.1高斯混合模型推导过程似然函数对数似然函数算法E步算法M步9.3.2高斯混合模型参数估计的EM算法9.EM算法及其推广EM算法(expectation maximization algorithm,期望极大算法)是一种非监督模型...
复制链接

扫一扫