EM(expectation and maximization)算法学习笔记

最新推荐文章于 2022-10-25 21:21:43 发布

Easofm

最新推荐文章于 2022-10-25 21:21:43 发布

阅读量307

点赞数 1

文章标签：算法机器学习

本文链接：https://blog.csdn.net/u014675396/article/details/105728746

版权

Prerequisite

好心情

模型

Driving Example

扔钢镚儿：
在这里插入图片描述钢镚一号钢镚二号
图片来自：哔哩哔哩

设：
一号正面和二号正面出现的概率分别为： $p\ q$
并且有奇数次投掷一号，偶数次投掷二号，反复十次得到结果：
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$
现在试问用极大似然估计的方法求 $p\ q$ ：

解：
由题那么有：
似然函数为： $q)=P(\mathbf x\vert p,q)=p(x_1\vert p,q)\cdot p(x_2\vert p,q)\cdots p(x_{10}\vert p,q)$
即有：
$L (p, q) = p * q * (1 - p) * q * (1 - p) * (1 - q) * p * (1 - q) * p * q$
$\qquad \quad\ =p^3*q^3*(1-p)^2*(1-q)^2$
若要 $m a x L (p, q)$ , 只需分别 $max(p^3*(1-p)^2)$ 和 $max(q^3*(1-q)^2)$
显然 $p = q = 0.6$

上面的例子很简单，但相传有一好事者，他是这样子做的：
好事者扔钢镚儿：
在这里插入图片描述钢镚一号钢镚二号钢镚三号
设：
一号正面，二号正面，三号正面出现的概率分别为： $\pi, p,q$
并且有，先投掷一号，然后根据它的正反，来决定投掷二号（一号为正）或者三号（一号为负）。反复十次投掷有： $1, 1, 0, 1, 0, 0, 1, 0, 1, 1$ 。
好事者说：
假设只通过观测到掷硬币的结果，不能观测掷硬币的过程，问如何估计三个硬币出现正面的概率？
解：
比起上面的奇偶投掷法，这里无非就是把奇偶选择硬币的方式，换成了用另外一个硬币来做选择。但尴尬的是，好事者不让我们知道一号的结果，因此我们无法直接用 $p(x_1\vert p,q)\cdot p(x_2\vert p,q)\cdots$ 的方法来建立似然函数了，因为我们没有一号硬币的信息。那么就让我们来建立一个三参数模型，引入一号硬币的信息。
$\begin{aligned} P(y|\theta) &=\sum_{z}P(y,z|\theta)=\sum_{z}P(z|\theta)P(y|z,\theta) \\ &=\pi p^{y}(1-p)^{1-y}+(1-\pi)q^{y}(1-q)^{1-y} \end{aligned}$
y是观测变量，表示一次观测结果是1或0，z是隐藏变量(hidden variable)，表示掷硬币一号的结果，这个是观测不到结果的， $\theta=(\pi,p,q)$ 表示模型参数，将观测数据表示为 $Y=(Y_1,Y_2,...,Y_n)^{T}$ ，未观测的数据表示为 $Z=(Z_1,Z_2,...,Z_n)^{T}$ ，则观测函数的似然函数是：
$\begin{aligned} P(Y|\theta)&=\sum_{Z}P(Z|\theta)P(Y|Z,\theta)\\ &or\\ &=\prod_{i=0}^nP(y_i\vert \theta)\\ &=\prod_{i=0}^n ( \pi p^{y_i}(1-p)^{1-y_{i}}+(1-\pi)q^{y_{i}}(1-q)^{1-y_{i}}) \end{aligned}$
注意 $Z=(Z_1,Z_2,...,Z_n)^{T}$ 是向量，不是取其中一个值！！
那么对 $\theta=(\pi,p,q)$ 求极大似然估计有：
$\hat{\theta}=\argmax_\theta logP(Y\vert \theta)$
就这？
在这里插入图片描述
是不是lingo, mathlab启动就完事了？！！
然而这个问题没有解析解，所以我们就只能另寻他路。

EM算法：

E:expectation M:maximization

$L(\theta)-L(\theta^{(i)})$ :

上文我们提到有似然函数：
$\begin{aligned}L(\theta)&=logP(Y\vert \theta)=log\sum_ZP(Y,Z\vert \theta)\\ &=log(\sum_ZP(Y\vert Z,\theta)P(Z\vert \theta)) \end{aligned}$
假设我们有随机初始值： $\theta^{(i)}$ , 现在我们的任务是找到一个 $\theta$ 有： $L(\theta)>L(\theta^{(i)})$ 。那么也即是有：
$L(\theta)-L(\theta^{(i)})=log(\sum_ZP(Y\vert Z,\theta)P(Z\vert \theta))-logP(Y\vert \theta^{(i)}) \gt 0$
现在我们希望对这个式子进行变形，从而找到 $L(\theta)$ 的下界，如果有下界大于 $L(\theta^{(i)})$ ，那么就达到了差值大于零的目的。并且我们尽量是下界大，那么肯定 $L(\theta)$ 也会尽量变大。但要注意，下界最大时， $L(\theta)$ 并不一定就取得了最大。下文会提到这一点。
$\begin{aligned}L(\theta)-L(\theta^{(i)})&=log(\sum_Z P(Z\vert Y,\theta^{(i)})\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})}-logP(Y\vert \theta^{(i)})\\ &由log凹函数性质有:log\sum_j\lambda_jy_j\geq \sum_j\lambda_jlogy_j,\lambda_j\ge 0,\sum_j\lambda_j=1，则\\ &\ge \sum_ZP(Z\vert Y,\theta^{(i)}) )log\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})}-logP(Y\vert \theta^{(i)})\\ &Known: \sum\limits_ZP(Z\vert Y,\theta)=1,then \\ &=\sum_ZP(Z\vert Y,\theta^{(i)}) log\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})}-\sum_ZP(Z\vert Y,\theta^{(i)})\frac{logP(Y\vert \theta^{(i)})}{\sum\limits_ZP(Z\vert Y,\theta^{(i)})}\\ &=\sum_ZP(Z\vert Y,\theta^{(i)})log\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})P(Y\vert \theta^{(i)})} \end{aligned}$

$B(\theta,\theta^{(i)})$

令：
$B(\theta,\theta^{(i)})\hat=L(\theta^{(i)})+\sum_ZP(Z\vert Y,\theta^{(i)})log\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})P(Y\vert \theta^{(i)})}$
则：
$L(\theta)\ge B(\theta,\theta^{(i)})$
当令 $\theta=\theta^{(i)}$ 时，我们有 $L(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)})$
上文说到极大 $B(\theta^{(i)},\theta^{(i)})$ ，那么也会尽量增大 $L(\theta)$ 。
那么我们的任务就变成了：
$\theta^{(i+1)}=\argmax_\theta B(\theta,\theta^{(i)})$
去除一些关于 $\theta$ 的常数：
$\begin{aligned}\theta^{(i+1)}=&\argmax_\theta \big(L(\theta^{(i)})+\sum_ZP(Z\vert Y,\theta^{(i)})log\frac{P(Y\vert Z,\theta)P(Z\vert \theta)}{P(Z\vert Y,\theta^{(i)})P(Y\vert \theta^{(i)})}\big)\\ &=\argmax_\theta \sum_ZP(Z\vert Y,\theta^{(i)}) log\big(P(Y\vert Z,\theta)P(Z\vert \theta)\big)-\sum_ZP(Z\vert Y,\theta^{(i)})log\big(P(Y\vert \theta^{(i)}){P(Z\vert Y,\theta^{(i)})}\big)\\ &=\argmax_\theta \sum_ZP(Z\vert Y,\theta^{(i)}) log\big(P(Y\vert Z,\theta)P(Z\vert \theta)\big)\\ &=\argmax_\theta \sum_ZP(Z\vert Y,\theta^{(i)}) logP(Y,Z\vert \theta)\\ &=\argmax_\theta Q(\theta,\theta^{(i)}) --划重点：Q函数！ \end{aligned}$

最优性：

回到EM算法能否找到最优解的问题上，看下图：
在这里插入图片描述
图片来源：李航-统计学习方法

可以发现，虽然说我们能使 $B(\theta,\theta^{(i)})$ 最大，但是由于推导中的不等式，此时 $L(\theta^{(i+1)})$ 不一定最大。因而EM算法不能保证找到全局最优解。

Q函数

定义：

完全数据的对称似然函数 $logP(Y,Z\vert \theta)$ 关于在给定观测数据Y和当前参数 $\theta^{(i)}$ 下对未观测数据Z的条件概率分布 $P(Z\vert Y,\theta^{(i)})$ 的期望称为Q函数。（摘自李航统计学习）
即：
$Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z\vert \theta)\vert Y,\theta^{(i)}]$

伪代码：

$初始化\theta, 需要注意一点是EM算法对初始值比较敏感$
$\ i=1\ to\ k:$
$\quad Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z\vert \theta)\vert Y,\theta^{(i)}]$
$\quad \theta^{(i+1)}=\argmax_\theta Q(\theta,\theta^{(i)})$
$\qquad \vert\vert\theta^{(i+1)}-\theta^{(i)}\vert\vert<\epsilon_1 \ or\ \vert\vert Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})\vert\vert<\epsilon_2$
通过上面的流程也可以看得出来为什么叫EM算法。

收敛性：

please jump: https://blog.csdn.net/sinat_26376671/article/details/44313885?depth_1-utm_source=distribute.pc_relevant_right.none-task-blog-BlogCommendFromBaidu-3&utm_source=distribute.pc_relevant_right.none-task-blog-BlogCommendFromBaidu-3

高斯混合模型的参数估计

定义：

高斯混合模型是指有如下形式的概率分布模型：
$P(y|\theta)=\sum_{k=1}^{K}a_k\phi(y|\theta_{k}) \\ a_k>0,\sum a_k =1,\theta_k=(u_k,\delta_k^2)\\ \phi(y|\theta_{k})=\frac{1}{\sqrt{2\pi}\delta_{k}}exp(-\frac{(y-\mu_{k})^2}{2 \delta_{k}^{2}}),称为第k个分模型$
考虑：
让高斯混合模型生成样本 $Y=(y_1,y_2,\cdots y_j)^T,j=1,2,3,\cdots ,N$ ，那么我们如何来理解这个生成过程呢？
由于 $\sum\alpha_k=1$ ，我们可以认为，第 i 次生成时，根据 $\alpha_k$ 的相对大小来选择第K个模型来生成 $y_i$ 。
这跟扔钢镚很像，先确定一个前置量（无法观测），再用相应的后置量来生成样本。因此，我们的隐变量（所谓的前置量）也就确定了。
在这里我们设隐变量为： $Z=(z_1,z_2,\cdots z_j)^T,j=1,2,3,\cdots ,N$ ，它的每一个分量表征的是每一次采样所用的是哪一个分模型 $\phi(y\vert \theta_k)$ ,即 $z_j=1,2,3,\cdots,k$

E步：

由上文，我们知道了，观察变量 $Y$ ，和隐变量 $Z$ 。又由极大似然估计的EM算法，我们有：
$\begin{aligned}\theta^{(i+1)}&=\argmax_\theta Q(\theta,\theta^{(i)}) \\ &=\argmax_\theta E_Z[logP(Y,Z\vert \theta)\vert Y,\theta^{(i)}]\\ &=\argmax_\theta \sum_ZP(Z\vert Y,\theta^{(i)}) logP(Y,Z\vert \theta)\\ 由样本间的独立性有：\\ &=\argmax_\theta \sum_{z_1,z_2,\cdots ,z_j}P(z_1\vert y_1,\theta^{(i)})\cdots P(z_j\vert y_j,\theta^{(i)})logP(y_1,z_1\vert\theta) \cdots P(y_j,z_j\vert \theta)\\ &=\argmax_\theta\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})\sum_{j=1}^NlogP(y_j,z_j\vert \theta)\\ &=\argmax_\theta\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})\big (logP(y_1,z_1\vert \theta)+\sum_{j=2}^Nlog(y_j,z_j\vert \theta)\big )\\ 取前一加项有：\\ &=\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})logP(y_1,z_1\vert \theta)\\ &=\sum_{z_1,z_2,\cdots ,z_j}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\prod_{j=2}^N P(z_j\vert y_j,\theta^{(i)})\\ &=\sum_{z_1}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\sum_{z_2,\cdots ,z_j}\prod_{j=2}^N P(z_j\vert y_j,\theta^{(i)})\\ &=\sum_{z_1}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\sum_{z_2}\sum_{z_3,\cdots ,z_j}P(z_2\vert y_2,\theta^{(i)})\prod_{j=3}^N P(z_j\vert y_j,\theta^{(i)})\\ &=\sum_{z_1}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\sum_{z_2}P(z_2\vert y_2,\theta^{(i)})\sum_{z_3,\cdots ,z_j}\prod_{j=3}^N P(z_j\vert y_j,\theta^{(i)})\\ 可以发现\sum_{z_2}P(z_2\vert y_2,\theta^{(i)})=1，所以有：\\ &=\sum_{z_1}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\\ 综上讨论有：\\ &\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})logP(y_1,z_1\vert \theta)\\ &=\sum_{z_1}logP(y_1,z_1\vert \theta)P(z_1\vert y_1,\theta^{(i)})\\ 即是说有：\\ &\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})logP(y_j,z_j\vert \theta)\\ &=\sum_{z_j}logP(y_j,z_j\vert \theta)P(z_j\vert y_j,\theta^{(i)})\\ 那么：\\ &\argmax_\theta\sum_{z_1,z_2,\cdots ,z_j}\prod_{j=1}^N P(z_j\vert y_j,\theta^{(i)})\big (logP(y_1,z_1\vert \theta)+\sum_{j=2}^Nlog(y_j,z_j\vert \theta)\big )\\ &=\argmax_\theta \sum_{j=1}^N\sum_{z_j}logP(y_j,z_j\vert \theta)P(z_j\vert y_j,\theta^{(i)})\\ 又由于：\\ 令：\\ &\alpha_k=\alpha_{z_j},\alpha_k的取值取决于z_j的取值\\ &P(y_j,z_j\vert \theta)=P(z_j\vert \theta)P(y_j\vert z_j\theta)=\alpha_k\phi(y_j\vert \theta_k)=\alpha_{z_j}\phi(y_j\vert \theta_k)\\ &P(z_j\vert y_j,\theta^{(i)})=\frac{P(z_j,y_j\vert \theta^{(i)})}{P(y_j\vert \theta^{(i)})}=\frac{\alpha_k\phi(y_j\vert\theta_k^{(i)})}{P(y_j\vert \theta^{(i)})}=\frac{\alpha_k\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_k\phi(y_j\vert\theta_k^{(i)})}=\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K \alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}\\ 终于有：\\ &\argmax_\theta \sum_{j=1}^N\sum_{z_j}logP(y_j,z_j\vert \theta)P(z_j\vert y_j,\theta^{(i)})\\ &=\argmax_\theta \sum_{j=1}^N\sum_{z_j}log\alpha_{z_j}\phi(y_j\vert \theta_k)\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})} \end{aligned}$

在这里插入图片描述

M步：

由上面的推证，我们得到：
$\begin{aligned}\theta^{(i+1)}&=\argmax_\theta Q(\theta,\theta^{(i)})\\ &=\argmax_\theta \sum_{j=1}^N\sum_{z_j}log\alpha_{z_j}\phi(y_j\vert \theta_k)\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})} \\ &=\argmax_\theta \sum_{j=1}^N\sum_{z_j}\big (log\alpha_{z_j}+log\phi(y_j\vert \theta_k)\big )\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}\\ &=\argmax_\theta\sum_{j=1}^N\sum_{z_j}log\alpha_{z_j}\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}+log\phi(y_j\vert \theta_k)\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}\\ \end{aligned}$
可以发现，若要取到最大，只需要加号两边分别最大，即是说：
$\begin{aligned}\mathbf\alpha_k=\argmax_{\alpha_{z_j}}\sum_{j=1}^N\sum_{z_j}log\alpha_{z_j}\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}\\ \mathbf \theta=\argmax_\theta\sum_{j=1}^N\sum_{z_j}log\phi(y_j\vert \theta_k)\frac{\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}{\sum\limits_{k=1}^K\alpha_{z_j}\phi(y_j\vert\theta_k^{(i)})}\\ \end{aligned}$
这样一来，分模型的概率值就可以和高斯分布的参数分开来求了。由于求解过程涉及到宇宙起源，篇幅有限，就不再赘述了。在这里插入图片描述

for details please jump: https://blog.csdn.net/qq_37334135/article/details/85493330
总结：

EM算法，简单来说就是列出Q函数，求使其最大化的参数，并迭代直到达到理想效果。
EM算法，不仅仅可以用极大似然估计法，还可以用最大后验估计法。
除开高斯分布，其他分布也可以用来建模
sklearn的mixture模块的讲解的蛮好的，贝叶斯估计也有，可以去看看
https://scikit-learn.org/stable/modules/mixture.html#gmm

参考书籍：
李航：《统计学习方法第二版》

参考链接：
https://www.bilibili.com/video/BV1aE411o7qd?p=68
https://github.com/datawhalechina/team-learning/tree/master/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%9F%BA%E7%A1%80

Easofm

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM(expectation and maximization)算法学习笔记

目录Prerequisite模型Driving ExampleEM算法：L(θ)−L(θ(i))L(\theta)-L(\theta^{(i)})L(θ)−L(θ(i)):B(θ,θ(i))B(\theta,\theta^{(i)})B(θ,θ(i))Q函数定义：伪代码：Prerequisite好心情模型Driving Example扔钢镚儿：钢镚一号钢镚二号图片来自：哔哩哔...
复制链接

扫一扫