个人学习笔记（十四）高斯混合模型中的EM算法

最新推荐文章于 2024-05-23 15:24:27 发布

万carp

最新推荐文章于 2024-05-23 15:24:27 发布

阅读量438

点赞数

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/94627527

版权

个人学习笔记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

因为在第三次比赛中用到了高斯混合模型GMM，这里根据我自己的理解对GMM内部的EM算法做一个简要的复习。

EM算法概述

先来回顾一下EM算法。EM算法是通过迭代求 $L(\theta)=logP(Y|\theta)$ 的极大似然估计的方法，即我们的目标是要找到一个 $\theta$ ，使得 $logP(Y|\theta)$ 最大。
首先选择参数初值 $\theta^{(0)}$ ，开始迭代。在第 $i + 1$ 次迭代的E步计算 $Q$ 函数：
$Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z|\theta)|Y,\theta^{(i)}]=\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ 接着在M步计算使 $Q$ 函数极大化的 $\theta$ 作为 $\theta^{(i+1)}$ ：
$\theta^{(i+1)}=\arg\max_\theta Q(\theta,\theta^{(i)})$ 可以看到，每次迭代其实都是在求 $Q$ 函数及其极大。划重点， $Q$ 函数是完全数据的对数似然函数 $logP(Y,Z|\theta)$ 关于未观测数据 $Z$ 的条件概率分布 $P(Z|Y,\theta^{(i)})$ 的期望。
为什么每一步求 $Q$ 函数的极大，最后就能得到 $L(\theta)$ 的极大呢？一句话概括， $Q$ 函数是 $L(\theta)-L(\theta^{(i)})$ 的下界，一步步求 $Q$ 函数的极大，意味着一步步的提高 $L(\theta)$ 。

$Q$ 函数推导

假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，考虑下面 $L(\theta)-L(\theta^{(i)})$ 的表达式
$L(\theta)-L(\theta^{(i)})=logP(Y|\theta)-logP(Y|\theta^{(i)})$ 在 $L(\theta)$ 中加入隐变量 $Z$ ，即令
$P(Y|\theta)=\sum_ZP(Y,Z|\theta)$ 代入 $L(\theta)$ 得
$L(\theta)=log\sum_ZP(Y,Z|\theta)$ 为了用Jensen不等式将log放入 $\sum$ 内部，同时乘以、除以一个 $P(Z|Y,\theta^{(i)})$ 得
$L(\theta)=log\sum_ZP(Z|Y,\theta^{(i)})\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 利用Jensen不等式得到 $L(\theta)$ 的下界
$L(\theta)\geq\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 将 $L(\theta)$ 的下界代入 $L(\theta)-L(\theta^{(i)})$ 中，得
$L(\theta)-L(\theta^{(i)})\geq\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}=\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Y,Z|\theta^{(i)})}$ 由于上式可转化为
$L(\theta)-L(\theta^{(i)})\geq\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)-\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta^{(i)})$ 因为我们的目标是找到一个 $\theta$ 使 $L(\theta)-L(\theta^{(i)})$ 的下界极大，因此不等式右边的后半部分可以看作常数，我们的目标便转化为了
$\theta^{(i+1)}=\arg\max_\theta\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ 这样， $Q$ 函数就出来了。

GMM中的EM算法

高斯混合模型的概率分布表达式是这样的
$P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)$ 共有 $K$ 个高斯分布，概率 $P(y|\theta)$ 是 $K$ 个概率分布密度的加权和。每个高斯分布共有3个参数需要求取， $\alpha_k$ 代表每个高斯分布的权值， $\theta_k=(\mu_k,\sigma_k^2)$ 代表每个高斯分布的均值和方差。
那么如果我们现在有一系列的观测点 $Y=(y_1,y_2,\cdots,y_N)$ ，如何用EM算法求取高斯混合模型的参数呢？同样是E步求 $Q$ 函数，M步求极大，但这里不写推导过程，而是去感性理解。
首先取参数的初始值 $\alpha_k,\mu_k,\sigma_k^2$ ，开始迭代。在GMM中，隐变量 $Z$ 代表了每个观测点属于哪个高斯分布，所以在E步，我们对隐变量 $Z$ 在给定样本下的条件分布求期望，也就是求每个观测点属于各高斯分布的概率，设点 $y_j$ 属于高斯分布 $k$ 的概率为 $\hat \gamma_{jk}$ ，则
$\hat\gamma_{jk}=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)}, j=1,2,\cdots,N; k=1,2,\cdots,K$ 到了M步，我们可以用求出来的 $\hat\gamma_{jk}$ 去重新计算各高斯分布的参数，这本质上是一个求期望极大的过程。针对第 $k$ 个高斯分布的权值 $\alpha_k$ ，它应该等于每个观测点属于此高斯分布的概率的平均值，即
$\hat\alpha_k=\frac{\sum_{j=1}^N\hat\gamma_{jk}}{N}, k=1,2,\cdots,K$ 针对第 $k$ 个高斯分布的均值 $\mu_k$ ，它应该等于每个观测点关于其属于第 $k$ 个高斯分布的概率的期望，即
$\hat\mu_k=\frac{\sum_{j=1}^N\hat\gamma_{jk}y_j}{\sum_{j=1}^N\hat\gamma_{jk}}, k=1,2,\cdots,K$ 最后是第 $k$ 个高斯分布的方差 $\sigma_k^2$ ，它应该等于每个观测点与均值 $\mu_k$ 之差的平方关于其属于第 $k$ 个高斯分布的概率的期望，即
$\hat\sigma_k^2=\frac{\sum_{j=1}^N\hat\gamma_{jk}(y_j-\mu_k)^2}{\sum_{j=1}^N\hat\gamma_{jk}}, k=1,2,\cdots,K$
得到了每个高斯分布当前的 $\hat\alpha_k,\hat\mu_k,\hat\sigma_k^2$ 后，返回E步继续迭代。

万carp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
个人学习笔记（十四）高斯混合模型中的EM算法

       因为在第三次比赛中用到了高斯混合模型GMM，这里根据我自己的理解对GMM内部的EM算法做一个简要的复习。EM算法概述       先来回顾一下EM算法。EM算法是通过迭代求L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)L(θ)=logP(Y∣θ)的极大似然估计的方法，即我...
复制链接

扫一扫