Expectation Maximization(EM)算法

最新推荐文章于 2024-07-19 10:51:16 发布

extremebingo

最新推荐文章于 2024-07-19 10:51:16 发布

阅读量581

点赞数

分类专栏： machine learning 文章标签：算法

本文链接：https://blog.csdn.net/extremebingo/article/details/78417644

版权

EM算法是一种处理含有隐变量概率模型参数估计的方法。通过掷硬币实验介绍问题背景，深入讲解EM算法的E-step和M-step，以及在高斯混合模型中的应用。涉及凸函数概念，Jensen不等式，并讨论算法的收敛性和初值选择的重要性。

摘要由CSDN通过智能技术生成

概率模型有时既含有观测变量（observable variable），又含有隐变量（latent variable）。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计或贝叶斯估计来计算模型参数。但是，当模型含有隐变量时，就不能简单地使用以上估计方法，而EM算法就是针对含有隐变量的概率模型参数的极大似然估计法。

一般地，用 $X$ 表示可观测随机变量的数据， $Z$ 表示隐随机变量的数据， $X$ 和 $Z$ 连在一起称为完全数据（complete-data），观测数据 $X$ 又称为不完全数据（incomplete-data）。假设给定观测数据 $X$ ，其概率分布是 $P(X|\theta)$ ，其中 $\theta$ 是需要估计的模型参数，那么不完全数据 $X$ 的似然函数是 $P(X|\theta)$ ，对数似然函数 $L(\theta)=\log P(X|\theta)$ ；假设 $X$ 和 $Z$ 的联合概率分布是 $P(X,Z|\theta)$ ，那么完全数据的对数似然函数是 $\log P(X,Z|\theta)$ 。对于不完全数据的统计估计问题，EM算法已经成为了一种通用的工具。

从掷硬币实验说起

给定两枚硬币 $A$ 和 $B$ ，它们出现正面的概率分别为 $\theta_A$ 和 $\theta_B$ (未知)，我们的目标是通过重复5次以下实验来估计 $\theta=(\theta_A, \theta_B)$ 。

选择一枚硬币，并且知道具体是哪一枚，然后用选中的硬币掷十次，记录结果。因此，总共进行了50次掷硬币的实验。如下图所示

这里写图片描述

现在，引入两个随机变量 $X=\{X_1,X_2,X_3,X_4,X_5\}$ 和 $Z=\{Z_1,Z_2,Z_3,Z_4,Z_5\}$ ，其中 $X_i\in\{0,1,\cdots,10\}$ 表示第 $i$ 次实验硬币正面朝上的次数， $Z_i\in\{A,B\}$ 表示第 $i$ 次实验所用的硬币。上述问题为完全数据的参数估计问题，可通过正面出现的比例进行估计

θ A^= # o f h e a d s u s i n g c o i n A t o t a l # o f f l i p s u s i n g c o i n A θ B^= # o f h e a d s u s i n g c o i n B t o t a l # o f f l i p s u s i n g c o i n B

$\hat{\theta_A}=\frac{\#\ of\ heads\ using\ coin\ A}{total\ \#\ of\ flips\ using\ coin\ A} \\ \hat{\theta_B}=\frac{\#\ of\ heads\ using\ coin\ B}{total\ \#\ of\ flips\ using\ coin\ B}$

事实上，上述的估计方式就是统计学上的最大似然估计。

现在考虑一个更有挑战性的参数估计问题。只给定硬币出现正面的次数，而不给定是由哪一枚硬币掷出的，即 $Z$ 为隐含变量。因此，该问题就转化为不完全数据的参数估计问题。此时，由于不知道具体是哪一枚硬币，所以无法通过直接计算硬币出现正面的次数来估计 $\theta$ 。当概率模型存在隐变量时，不能简单地使用极大似然估计，需要采用下文的EM算法来计算模型参数。