[贝叶斯九]之EM算法

最新推荐文章于 2023-11-17 21:58:36 发布

背包_十年

最新推荐文章于 2023-11-17 21:58:36 发布

阅读量1.2k

点赞数 1

分类专栏： faicutly 机器学习文章标签：机器学习 EM算法极大似然估计

本文链接：https://blog.csdn.net/neu_chenguangq/article/details/79331956

版权

本文介绍了EM(期望最大化)算法的基本概念、理论推导及其在三枚硬币问题中的应用。EM算法是一种用于含有隐变量的概率模型参数估计的迭代方法，通过E步计算隐变量的期望和M步进行极大似然估计不断迭代，直至收敛。文章通过一个简单的正态分布参数估计例子展示了EM算法的工作流程，并探讨了其在实际问题中的应用。

摘要由CSDN通过智能技术生成

一、简单介绍

EM(Expectaion Maximization)算法(又称为期望最大化方法)是一种迭代算法，Dempster等人在1977年总结提出来的。简单来说EM算法就是一种含有隐变量的概率模型参数的极大似然估计。EM算法的每次迭代由两步组成：第一是求期望，第二是求极大。EM算法在机器学习中有极为广泛的应用。如常被用来学习高斯混合模型(Gaussian mixture model, 简称GMM)的参数。

那么什么是含有 $\color{red}{隐变量的概率模型？}$ 这里举一个常用的三硬币例子，假设我们有三枚硬币：A、B和C，他们的质地都是不均匀的，假设他们正面朝上的概率分别是：a、b和c。现在弄一个抛硬币的规则，先抛A硬币，如果A正面朝上，那么就抛B硬币，否则就抛C硬币。最后记下最终结果，正面朝上记为1，否则记为0。现在进行10次该实验，假如得到的结果如下： 1，0，0，1，1，1，0，1，0，0。这个时候我们其实只得到了最终的结果，并不知道是B还是C硬币的结果，因为不知道每次A硬币的结果。这个时候A硬币的抛掷就可以认为是一个隐含变量。但是问题是如何根据这个结果来估计这三个参数呢？

二、理论推导

2.1 算法思想

在解决例子问题之前，我们先进行一些所谓枯燥的数学化定义，这样或许能帮助理解和记忆。首先，假设 $Y$ 是最终观测到的变量集(上述硬币中的最终正反面结果)， $Z$ 是隐变量集(A硬币结果)， $\Theta(a,b,c)$ 是我们待求的参数集。根据之前我们对于极大似然估计的解释，假设抛开隐变量集不管，我们最终的目的就是根据最终观测到的变量集采用极大似然估计的方法来求解出参数集。所以，我们的目标函数就是最大化似然（这里取似然函数的对数）。

L (Θ | Y, Z) = l o g P (Y, Z | Θ)

$L(\Theta|Y,Z) = log \ P(Y,Z|\Theta)$

如果没有 $Z$ 变量，如上所说，直接可以用极大似然估计的方法来估计参数。但是这里多了一个隐变量 $Z$ ，所以EM算法的精髓思想出来了：

初始化一个 $\Theta^0$ 参数
E步：根据 $\Theta^t$ 我们可以计算出 $Z$ 的期望值，记为 $Z^t$
M步：根据 $Z^t$ 我们可以利用极大似然法估计出参数 $\Theta$ ，记为 $\Theta^{t+1}$
重复上述EM步直到收敛

简单阐述就是：其实这里有两类变量，一类是隐变量，一类是待求的参数变量。那么普通的思路该怎么求这个参数变量呢？由上述阐述可以知道，如果我们事先知道了隐变量就能利用极大似然来估计参数，如果我们知道了参数，那么我们可以计算出隐变量集的期望。这里就形成了一个制约，只要我们给出隐变量的初始值就能通过迭代达到两类变量之间的平衡，也就是收敛。类似于我们在生活中的称重，如果要将一类物品分为两部分(比如糖果)，在没有称的情况下，往往我们在左右手进行掂量(这就有点像两类变量)，如果左手上重了就分点到右手上，否则，从右手上扒拉点分到左手，直到感觉两只手上重量差不多。

所以这里就落下了两个最主要的问题：