EM算法极简总结——CVMLI Prince读书随笔第7章

最新推荐文章于 2022-08-20 15:41:20 发布

Trade Off

最新推荐文章于 2022-08-20 15:41:20 发布

阅读量723

点赞数

分类专栏：机器学习 # 概率论与数理统计 # 读书笔记 CVMLI 文章标签：机器学习概率论

本文链接：https://blog.csdn.net/qq_32071849/article/details/104086483

版权

机器学习同时被 3 个专栏收录

45 篇文章 5 订阅

订阅专栏

读书笔记 CVMLI

9 篇文章 0 订阅

订阅专栏

概率论与数理统计

6 篇文章 1 订阅

订阅专栏

对数似然目标

$\hat \theta = \argmax _\theta \left [ \sum_{i=1}^I log \left [\int P(x_i, h_i|\theta)dh_i \right] \right ]$
其中 ${ x_i\}_{i=1}^I$ 是训练数据， $h$ 是隐变量。

定义下界

上式不好直接求，定义下界函数
$\begin{aligned} \mathcal B [\{q_i(h_i)\}, \theta ] &= \sum_{i=1}^I \int q_i(h_i) \log \left[ \frac{P(x_i, h_i | \theta)}{q_i(h_i)} \right] dh_i \\ & \leq \sum_{i=1}^I \log \left [\int P(x_i, h_i|\theta)dh_i \right] \end{aligned}$

优化过程

不断优化 $\mathcal B$ ，即优化了目标函数的下界。优化方法为

E步（期望步）：更新概率分布 ${ q_i(h_i)\}_{i=1}^I$ 来最大地提高下界。
在第 $t + 1$ 步，选择
$\hat q_i (h_i) = P(h_i| x_i, \theta ^{[t]}) = \frac{P(x_i|h_i, \theta ^{[t]})P(h_i|\theta ^{[t]})}{P(x_i)}$
该式是最大化的正确性可由Jensen不等式保证。注意这种取法实际上达到了对数似然函数，即此时
$\mathcal B [\{q_i(h_i)\}, \theta]=\sum_{i=1}^I \log[P(x_i|\theta)]$
M步（最大化步）：更新参数 $\theta$ 来提高下界。注意到 $\hat q_i(h_i)$ 与 $\theta$ 无关，所以只需最大化下式
$\begin{aligned} \hat \theta^{[t+1]} &= \argmax _\theta \sum_{i=1}^I \int \hat q_i(h_i) \log \left[ P(x_i, h_i|\theta) \right] dh_i \\ &= \argmax _\theta \sum_{i=1}^I \left [ \mathbb E_{ h \sim \hat q_i(h_i)} \left[ \log (P(x_i| h_i, \theta))\right] + \mathbb E_{ h \sim \hat q_i(h_i)} \left[ \log (P(h_i))\right] \right ] \end{aligned} \tag{1}$

例子解释

混合高斯模型

在混合高斯模型当中， $E$ 步就是对每个点赋类别概率， $M$ 步就是更新参数 $\{ \mu, \Sigma, \lambda\}$ 。
如果不用EM算法，直接优化 $\sum_{i=1}^I \log [P(x_i|\theta)]$ ，则无法简单得到闭式解。
在这里插入图片描述

学生t分布模型

概念

高斯分布对奇异值太敏感，t分布不会产生如此剧烈影响。

如果
$P(\bm x|h) = \mathcal N (\bm x|\bm\mu, \bm\Sigma/h) \\ P(h) = Gam(h| \nu / 2, \nu/2)$
则 $x$ 的全概率分布为学生t分布：
$\begin{aligned} P(\bm x) & = \int P(\bm x|h)P(h)dh \\ &= \int \mathcal N(\bm x|\bm \mu, \bm\Sigma/h)Gam(h|\nu/2, \nu/2)dh \\ &= St(\bm x| \bm \mu, \bm \Sigma, \nu) \end{aligned}$
其中 $h$ 是标量隐变量， $G a m$ 是Gamma分布。
可以理解为是 $h$ 选择了一族同均值的正态分布中的一个，然后在该分布上生成 $\bm x$ .

也可参考之前博客中记录的，PRML对于学生t分布的解释。

在这里插入图片描述

EM算法求解

E步：
$\begin{aligned} q_i(h_i) = P(h_i|\bm x_i, \bm \theta^{[t]}) &= \frac{P(\bm x_i|h)P(h_i)}{P(\bm x_i|\theta^{[t]})} \\ &= \frac{\mathcal N(\bm x_i| \mu, \Sigma/h) Gam(h_i|\nu/2, \nu/2) }{P(\bm x_i|\theta^{[t]})} \\ &= Gam(h_i| \frac{\nu + D}{2} , \frac{(\bm x_i - \mu)^T \Sigma^{-1} (\bm x_i - \bm \mu)}{2} + \frac{\nu}{2}) \end{aligned}$
最后一步的证明，注意共轭性。可以参考之前的博客。
M步：对式(1)求导，置0后得到：
$\begin{aligned} \mu^{[t+1]} &= \frac{\sum_{i=1}^I \mathbb E[h_i]\bm x_i}{\sum_{i=1}^I \mathbb E[h_i]} \\ \Sigma^{[t+1]} &= \frac{\sum_{i=1}^I \mathbb E[h_i] (\bm x_i - \mu^{[t+1]})(\bm x_i - \mu^{[t+1]})^T}{\sum_{i=1}^I \mathbb E[h_i]} \end{aligned}$
直观解释： $\mathbb E [h_i]$ 可以看作是数据的权重。对于异常值，协方差较大的高斯分布出现的概率大，也即 $h_i$ 倾向于偏小，所以权重小。这样也解释了学生t分布对于异常值的鲁棒性。
自由度 $\nu$ 没有闭式解，可以在代入更新后 $\bm \mu, \bm \Sigma$ 后，进行一维线性搜索最大化。

深入理解

对于下界（ELBO），如果两边对 $x$ 求关于数据分布的期望。可以进一步求得变分推断的优化目标为两个联合概率的负KL散度：
$-KL[p_d(x)q(z|x;\theta) || p(x|z;\theta)p(z;\theta)]$
即
$\mathbb E_{x\sim p_d} \log p(x) = -KL[p_d(x)q(z|x;\theta) || p(x,z;\theta)] + \mathbb E_{x\sim p_d}\log p_d(x)+\mathbb E_{x\sim p_d}KL(q(z|x)||p(z|x))$
其中 $p_d$ 是数据分布， $p$ 是模型拟合的全数据分布， $q$ 是后验辅助函数