1 基本概念准备
1.1 最大似然估计(MLE)
最大似然估计是统计学中的概念,维基百科中给出的定义是:最大似然估计(英语:maximum likelihood estimation,缩写为MLE),也称最大概似估计,是用来估计一个概率模型的参数的一种方法。具体来讲,就是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值(模型已定,参数未知)。
比较简单的例子1:从一个箱子中放了黑球和白球,抽100次,每次都放回,结果抽到黑球的次数是10次,白球的次数是90次,所以我们估计箱子中90%的球是白球,10%的球是黑球。
复杂一点的例子2:有三个硬币A,B,C,抛出去落地后,出现正面的概率分别是Pa,Pb,Pc,先抛A,,如果是正面,则抛B;如果是背面则抛C;然后根据B,C的结果记录,如果是正面则记录1,如果是背面则记录0.如果重复10次,结果为:
{1,1,1,1,0,0,1,0,1,0},那么Pa,Pb,Pc分别是多少呢?这个似乎就不能一下子得知,需要一定的计算。
求极大似然估计的具体步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数,令导数为 0,得到似然方程;
(4)解似然方程,得到的参数。
1.2 高斯分布
高斯分布(Gaussian distribution)有时也被称为正态分布(normal distribution),是一种在自然界大量的存在的、最为常见的分布形式。高斯分布的概率密度函数公式如下:
1.3 混合模型(Mixture Model)
混合模型是一个可以用来表示在总体分布(distribution)中含有 K 个子分布的概率模型,换句话说,混合模型表示了观测数据在总体中的概率分布,它是一个由 K 个子分布组成的混合分布。混合模型不要求观测数据提供关于子分布的信息,来计算观测数据在总体分布中的概率。
1.4 高斯混合模型(GMM)
高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
1.5 Jensen不等式
Jensen不等式就是就是凸函数的定义。直观上看就是a到b的弦(线段)在函数f(x)上方。
凸函数定义:
推广到多个点:
仔细观察上式,如果看做概率,
看做分布函数,那么左边就是分布函数的期望,右边是变量期望的函数值,即
特别的,当等号成立时,f(x)是常数,即为一条直线。
1.6 联合概率和边缘概率
假设有随机变量X于Y,此时,P(X=a, Y=b)用于表示X=a且Y=b的概率。这类包含多个条件且所有条件同时成立的概率称为联合概率。请大家特别注意,联合概率并不是其中某个条件成立的概率,而是所有条件同时成立的概率。与之对应地,P(X=a)或P(Y=b)这类仅于单个随机变量有关的概率称为边缘概率。
边缘概率:
条件概率:
2 EM算法
2.1 EM算法概述(目的都是使概率最大Maximization)
EM是一种解决存在隐含变量优化问题的有效方法。EM的意思是“Expectation Maximization”,EM是解决(不完全数据的)MLE问题的迭代算法 iterative algorithm。
2.2 EM算法数学原理
根据前面提到的求极大似然估计的步骤,我们先写出对数似然函数(x为观测变量,z为隐含变量,为模型参数):
我们假设是隐含变量z的概率分布函数(具体取啥我们现在并不知道)
我们令:
,则式子(2)是
的数学期望的对数。
根据Jensen不等式(log是凹函数),有
所以对数极大似然:
即式子(4)是的下界。说明当
给定时,
取决于
和
。
特别的,等号成立时,这时式子(4)取到最大值,为的真实值,
为常数,即:
又因为是z的概率分布函数,则
联合式子(5)和(6)得:
联合式子(5)和(7)得:
综上,当z的概率分布函数是在选定模型参数的情况下的后验概率时,
取得最大值,逼近
。
2.2 EM算法步骤
首先随机初始化样本中心点,即均值,然后迭代,每次迭代包含两个步骤:
E步骤 根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值:
M步骤 将似然函数最大化以获得新的参数值:
重复步骤E,M直到收敛。
2.3 EM算法收敛证明
EM算法的收敛性只要我们能够证明对数似然函数的值在迭代的过程中是增加的即可。前面我们知:
根据Jensen不等式
我在E步骤中,令
,
从而使等式成立
接着我们进行M步,调整极大化似然估计
得到新的
,
如此每次迭代都有:
参考: