高斯混合模型
高斯混合模型,是将一个Category分布与
个高斯分布混合起来,具体公式为
,其中
变量服从
的Category分布,
是第
个均值为
,标准差为
的高斯分布。
背景
对于一组观测数据
,我们要用高斯混合模型来拟合
。假设
的具体值我们已经知道这样,这样,未知数为 Category分布的概率分布与
个高斯分布的均值与方差。为了方便,用
指代所有的未知数(
,
,
,
)。
EM方法推导
由于EM方法是迭代算法,我们用
指代第
次迭代的解(
,
,
,
),其中
可以随机初始化。
对于一组观测数据,其中每一个数据,根据概率论的知识,下面的等式成立。
,
,
两边同时取对数,
,
,
并且两边同时乘以
(注意这里是
,即前一次的解),
,
,
由于
可取
个值,这样就有
个等式,相加得,
等式左边化解,得
式可写为
上式是观测数据任意一个数据都成立,这样我们有
个等式,相加得,
展开求和号,得
先来处理减号左侧的式子,求和号互换,依然相等
由于
是前一次的解,那么我们现在可以计算
的值,
回忆到
变量服从Category分布
,因此,
,
而
是高斯分布,因此,
。
这样
式等于,
代入
式,
上式继续展开,得,
上式得未知数为
,用极大似然估计来计算这些未知数,
其中
,使用导数等于0求极大值,得到一组方程组,方程组的解为
同样用极大似然估计,得到
,
。这样就完成了一次迭代。
再来看
式减号右侧的部分
,
当
,右侧导数等于0,取极小值,这时
。
因此当每次迭代时,
,
,因此最大化
就相当于最大化
。
推导完成,结束。