机器学习之 EM算法

最新推荐文章于 2022-09-09 19:42:46 发布

鼹鼠的胡须

最新推荐文章于 2022-09-09 19:42:46 发布

阅读量871

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_23968185/article/details/50896065

版权

机器学习专栏收录该内容

22 篇文章 3 订阅

订阅专栏

算法概述

EM算法，即期望极大算法(expectation maximization algorithm)是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望；M步，求极大。

数学表示

我们用 $Y$ 表示观测随机变量(不完全随机变量)的数据， $Z$ 表示隐随机变量的数据。 $Y$ 和 $Z$ 一起称为完全数据。假设给定观测数据 $Y$ ，其概率分布是 $P(Y|\theta)$ ，其中 $\theta$ 是需要估计的模型参数，那么不完全数据 $Y$ 的似然函数是 $P(Y|\theta)$ ，对数似然函数是 $L(\theta)=logP(Y|\theta)$ ;假设 $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z|\theta)$ ，那么完全数据的对数似然函数是 $logP(Y,Z|\theta)$ 。EM算法通过迭代求 $L(\theta)=logP(Y|\theta)$ 的极大似然估计。为降低算法表述的抽象性，我们引入下面的实例。

例1. 假设有3枚硬币A,B,C。他们正面出现的概率分别为 $\pi,p和q$ 。进行如下实验：先掷硬币A，根据其结果选出硬币B或硬币C，正面选硬币B，反面选硬币C；然后掷选出的硬币，出现正面记做1，出现反面记做0；独立地重复 $n(这里，n=10)$ 次实验，观测结果如下：
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$ $1,1,0,1,0,0,1,0,1,1$ 假设只能观测到最后掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率。

问题表述：观测数据(硬币B或C的结果)表示为 $Y=(Y_1,Y_2,\ldots,Y_n)$ ，未观测数据(硬币A的结果)表示为 $Z=(Z_1,Z_2,\ldots,Z_n)$ ,则观测数据的似然函数为

P (Y | θ) = \sum Z P (Z | θ) P (Y | Z, θ)

$P(Y|\theta)=\sum_ZP(Z|\theta)P(Y|Z,\theta)$ 即

P (Y | θ) = \prod j = 1 n [π p y j (1 - p) 1 - y j + (1 - π) q y j (1 - q) 1 - y j]

$P(Y|\theta)=\prod\limits_{j=1}^n[\pi p^{y_j}(1-p)^{1-y_j}+(1-\pi)q^{y_j}(1-q)^{1-y_j}]$ 这里

θ=(π,p,q) $\theta=(\pi,p,q)$ 为模型参数。考虑求模型参数

θ $\theta$ 的极大似然估计，即

θ * = arg max θ log P (Y | θ)

$\theta^*=\arg \max_\theta \log P(Y|\theta)$ 由于上式没有解析解，故不能用常规的极大似然估计法来求解，而EM提供了一种求解该问题的迭代算法。

EM算法

输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$ ;
输出：输出参数 $\theta$ .
(1)选择参数的初值 $\theta^{(0)}$ ，开始迭代；
(2)E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i+1$ 次迭代的E步，计算

Q (θ, θ (i)) = E Z [log P (Y, Z | θ) | Y, θ (i)] = \sum Z log P (Y, Z | θ) P (Z | Y, θ (i))

$\begin{align}Q(\theta,\theta^{(i)})&=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]\\&=\sum_Z\log P(Y,Z|\theta)P(Z|Y,\theta^{(i)})\end{align}$ 这里，

P(Z|Y,θ(i)) $P(Z|Y,\theta^{(i)})$ 是在给定观测数据

Y $Y$ 和当前的参数估计

θ(i) $\theta^{(i)}$ 下隐变量数据

Z $Z$ 的条件概率分布；
(3)M步：求使

Q(θ,θ(i)) $Q(\theta,\theta^{(i)})$ 极大化的

θ $\theta$ ，确定第

i+1 $i+1$ 次迭代的参数的估计值

θ(i+1) $\theta^{(i+1)}$

θ (i + 1) = arg max θ Q (θ, θ (i))

$\theta^{(i+1)}=\arg\max_{\theta}Q(\theta,\theta^{(i)})$
(4)重复第(2)步和第(3)步，直到收敛.

注：第二步函数 $Q(\theta,\theta^{(i)})$ 是EM算法的核心，称为Q函数，即完全数据的对数似然函数 $\log P(Y,Z|\theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Y,Z|\theta^{(i)})$ 的期望称为Q函数.

算法说明

(1)迭代时参数的初值可以任意选择，但EM算法对初值敏感；
(2)M步求Q函数的极大化，每次迭代使似然函数增大或达到局部极值，即EM不能保证全局最优。
(3)算法停止迭代的条件是对较小的 $\epsilon_1,\epsilon_2$ ，满足

| | θ (i + 1) - θ (i) | | < ϵ 1

$||\theta^{(i+1)}-\theta^{(i)}||<\epsilon_1$ 或

| | Q (θ (i + 1), θ (i)) - Q (θ (i), θ (i)) | | < ϵ 2

$||Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})||<\epsilon_2$
(4)算法的数学推导可通过迭代逐步近似极大化观测数据

Y $Y$ 关于参数

θ $\theta$ 的对数似然函数得到。假设第

i $i$ 次迭代后

θ $\theta$ 的估计值是

θ(i) $\theta^{(i)}$ ，若要新估计值

θ $\theta$ 使

L(θ) $L(\theta)$ 增加，则有

L(θ)>L(θ(i)) $L(\theta)>L(\theta^{(i)})$ 。则对

L(θ)−L(θ(i)) $L(\theta)-L(\theta^{(i)})$ 运用Jensen不等式容易得到。详细推导可参考《统计学习方法》。

算法推广

广义期望极大(GEM)算法.

博文参考自李航老师的《统计学习方法》，未完待续。

鼹鼠的胡须

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之 EM算法

算法概述EM算法，即期望极大算法(expectation maximization algorithm)是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望；M步，求极大。数学表示我们用YY表示观测随机变量(不完全随机变量)的数据，ZZ表示隐随机变量的数据。YY和ZZ一起称为完全数据。假设给定观测数据YY，其概率
复制链接

扫一扫