EM算法

叶落叶子

于 2020-01-09 21:44:06 发布

阅读量184

点赞数

分类专栏：国科大模式识别与机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_40485502/article/details/103915546

版权

15 篇文章 15 订阅

订阅专栏

通用EM

	E	M	目标函数	对谁求导
通用(z)	$P(z\\|x,\theta^{old})$	$\theta^{new}=argmax_\theta Q(\theta,\theta^{old})=log(p(x	\theta))$	$Q(\theta,\theta^{old})=E_{p(z\\|x,\theta^{old})}(log P(x,z\\|\theta))$
GMM(y)	$\gamma(z_{ik})\\=p(z_{ik=1}\\|x_i)\\=\frac{p(z_{ik}=1)p(x_i\\|z_k=1)}{\Sigma_{k=1}^Kp(z_{ik}=1)p(x_i\\|z_k=1)}\\=\frac{\pi_kN(x_i\\|\mu_k,\Sigma_k)}{\Sigma_{k=1}^K\pi_kN(x_i\\|\mu_k,\Sigma_k)}$	$\mu_k=\frac{\Sigma_i\gamma(z_{ik})x_i}{\Sigma_i\gamma(z_{ik})}\\\pi_k=\frac{\Sigma_i\gamma(z_{ik})}{N}\\\Sigma_k=\frac{\Sigma_i\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T}{\gamma(z_{ik})}$	$p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i\\|\mu_k,\Sigma_k),其中\Sigma_k\pi_k=1,0\leq \pi_k\leq 1,Q(\theta,\theta^{old})=log(\Sigma_zP(x,z\\|\theta))=log p(x\\|\theta)$	$p(x\\|\theta)$
HMM (y)	$\xi(y_t,y_{t+1})=P(y_t,y_{t+1}\\|x)=\frac{\alpha(y_t)P(x_{t+1}\\|y_{t+1})\beta(y_{t+1})a_{y_{t+1},y_t}}{p(x)}\\\gamma_t^i=P(y_t^i=1\\|x,\theta^p)\\E(n_{ij}\\|x,\theta^p)=\Sigma_{t=1}^T\gamma_t^ix_t^i\\E(m_{ij}\\|x,\theta^p)=\Sigma_{t=1}^{T-1}\xi_{t,t+1}^{ij}$	$\hat{\alpha}_{ij}=\frac{m_{ij}}{\Sigma_{k=1}^N m_{ik}}\\\hat{\eta}_{ij}=\frac{n_{ij}}{\Sigma_{k=1}^N n_{ik}}\\\hat{\pi}_i=y_1^i$	$Q(\theta,\theta^{old})=E_{p(y\\|x,\theta^{old})}(log P(x,y\\|\theta))=\Sigma_y p(y\\|x,\theta^{old} )logP(x,y\\|\theta)\\=\Sigma_y((log \pi_i+\Sigma_{t=1}^{T-1}log a_{t,t+1} +\Sigma_{t=1}^TP(x_t\\|y_t))P(x,y\\|\theta^{old}))\\s.t \Sigma_{i=1}^N\pi_i=1$	$L=Q(\theta,\theta^{old})+\lambda(\Sigma_{i=1}^N\pi_i-1)$

目标：最大化 $P(x|\theta)=\Sigma_zp(x,z|\theta)$
- 直接优化 $P(x|\theta)$ 很困难，但优化完整数据的 $p(x,z|\theta)$ 容易
证明
- 分解
- 对任意分布q(z),下列分解成立
  - $lnp(x|\theta)=L(q,\theta)+KL(q||p)\\其中，\\L(q,\theta)=\Sigma_zq(z)ln(\frac{p(x,z|\theta)}{q(z)})\\KL(q||p)=-\Sigma_zq(z)ln(\frac{p(z|x,\theta)}{q(z)})\\KL(q||p)\geq0,L(q,\theta)是lnp(x|\theta)的下界$
- E： $最大化L(q,\theta),\\q(z)=P(z|x,\theta^{old})$
- $M:原来的下界L(q,\theta)=\Sigma_zP(z|x,\theta^{old})ln(\frac{p(x,z|\theta)}{q(z)})=Q(\theta,\theta^{old})+const---正好是期望$
- 下界提升了
  
  https://www.bilibili.com/video/av31906558?from=search&seid=2112421761429235163

在这里插入图片描述

概率解释: 假设有K个簇，每一个簇服从高斯分布，以概率π𝑘随机选择一个簇 k ，从其分布中采样出一个样本点，如此得到观测数据
N个样本点𝒙的似然函数(Likelihood)
- $p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k),其中\Sigma_k\pi_k=1,0\leq \pi_k\leq 1$
- 引入隐变量，指示所属类,k维独热表示
  - $p(z_k=1)=\pi_k$
  - $p(x_i|z)=\Pi_k^KN(x_i|\mu_k,\Sigma_k)^{z_k}$
    - $p(x_i|z_k=1)=N(x_i|\mu_k,\Sigma_k)$
  - $p(x_i)=\Sigma_zp(x_i|z)p(z)=\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k)$
从属度(可以看做，xi属于第k个簇的解释
- $\gamma(z_{ik})\\=p(z_{ik=1}|x_i)\\=\frac{p(z_{ik}=1)p(x_i|z_k=1)}{\Sigma_{k=1}^Kp(z_{ik}=1)p(x_i|z_k=1)}\\=\frac{\pi_kN(x_i|\mu_k,\Sigma_k)}{\Sigma_{k=1}^K\pi_kN(x_i|\mu_k,\Sigma_k)}$

在这里插入图片描述

极大似然估计：EM算法
- 最大化 $P(x|\theta)$
- 参数 $A、\pi,输出分布的参数$
$P(x|\theta)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t,\eta)$
$假设P(x_t|y_t,\eta)=\Pi_{i=1}^M \Pi_{j=1}^L[\eta_{ij}]^{y_t^ix_t^j}$
M
$\hat{\alpha}_{ij}=\frac{m_{ij}}{\Sigma_{k=1}^N m_{ik}}\\ \hat{\eta}_{ij}=\frac{n_{ij}}{\Sigma_{k=1}^N n_{ik}}\\ \hat{\pi}_i=y_1^i$
E步
$\xi(y_t,y_{t+1})=P(y_t,y_{t+1}|x)\\=\frac{P(x|y_t,y_{t+1})P(y_{t+1}|y_t)P(y_t)}{p(x)}\\=\frac{P(x1,...x_t|y_t)P(x_{t+1}|y_{t+1})P(x_{t+2},...x_n|y_{t+1})P(y_{t+1}|y_t)P(y_t)}{p(x)}\\=\frac{\alpha(y_t)P(x_{t+1}|y_{t+1})\beta(y_{t+1})a_{y_{t+1},y_t}}{p(x)}$
$\gamma_t^i=P(y_t^i=1|x,\theta^p)$
$E(n_{ij}|x,\theta^p)=\Sigma_{t=1}^T\gamma_t^ix_t^i\\E(m_{ij}|x,\theta^p)=\Sigma_{t=1}^{T-1}\xi_{t,t+1}^{ij}$
$Q(\theta,\theta^{old})=E_{p(y|x,\theta^{old})}(log P(x,y|\theta))=\Sigma_I p(y|x,\theta^{old} logP(x,y|\theta)\\=\Sigma_I((log \pi_i+\Sigma_{t=1}^{T-1}log a_{t,t+1} +\Sigma_{t=1}^TP(x_t|y_t))P(x,y|\theta^{old}))\\s.t \Sigma_{i=1}^N\pi_i=1$
缺点
- 仅捕捉了状态之间和状态及其对应输出之间的关系（上下文）
- 学习目标和预测目标不匹配
  - 我们只要p(y|x),但只知道p(x,y)—产生式模型

在这里插入图片描述

在这里插入图片描述

关注

专栏目录