机器学习 - GMM参数估计的EM算法

最新推荐文章于 2021-06-03 09:23:26 发布

空空的司马

最新推荐文章于 2021-06-03 09:23:26 发布

阅读量5.5k

点赞数 3

分类专栏：【机器学习】文章标签：机器学习算法

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Robin__Chou/article/details/53099265

版权

【机器学习】专栏收录该内容

4 篇文章 0 订阅

订阅专栏

博客内容源于《统计机器学习》一书的阅读笔记。Python的源码实现来源于互联网（作者不详）。

看理论之前先来【举个例子】：
对于一个未知参数的模型，我们观测他的输出，得到下图这样的直方图：

混合高斯模型

我们先假设它是由两个高斯分布混合叠加而成的，那么我们该怎么去得到这两个高斯分布的参数呢？
EM算法！！

1. 高斯混合模型

假设观测数据 $y_{1}，y_{2}，...，y_{N}$ 是由高斯混合模型生成的。

P (y | θ) = \sum k = 1 K α k θ (y | θ k)

$P(y | \theta) = \sum^{K}_{k=1} \alpha_{k} \theta(y|\theta_{k})$
其中，

θ={α1，α2，...，αk；θ1，θ2，...，θk} $\theta = \{ \alpha_{1}，\alpha_{2}，... ，\alpha_{k}；\theta_{1}，\theta_{2}，...，\theta_{k}\}$ 。表示的是高斯模型的参数，EM算法也正是要用来估计高斯混合模型的这个参数。

2. 算法步骤

2.1 写出完全对数似然函数（弄清楚隐变量）

还是以上面的例子来说，对于我们的观测数据 $y_{i}，i=1,2, ... ,N$ 来说，该数据肯定是由分模型的数据叠加得到的。那么我们设想 $y_{i}$ 是这样产生的：
1> 首先依概率 $\alpha_{k}$ 选择第 $k$ 个高斯模型 $\phi(y | \theta_{k})$ ；
2> 然后依第 $k$ 个分模型的概率分布 $\phi(y | \theta_{k})$ 生成观测数据。
这时候观测数据是已知的，反应观测数据 $y_{j}$ 来自第 $k$ 个分模型的数据是未知的， $k=1，2，...，K$ , 以隐变量 $\gamma_{jk}$ 来表示。

这里写图片描述

可以得到完全似然函数：
这里写图片描述

2.2 EM算法的E步：确定Q函数

Q (θ, θ (i)) = E [l o g P (y, γ | θ) | y, θ (i)]

$Q(\theta,\theta^{(i)}) = E[log P(y, \gamma|\theta) | y, \theta^{(i)}]$
这里写图片描述

讲 $E\gamma_{jk}$ 和 $\sum_{j=1}^{N}E\gamma_{jk}$ 替换，得到Q函数。 $E\gamma_{jk}$ 表示分模型 $k$ 对观测数据 $y_{j}$ 的响应度。

这里写图片描述

2.2 EM算法的M步：迭代计算

迭代M步就是求函数 $Q(\theta, \theta^{(i)})$ 对 $\theta$ 的极大值，即求新一轮迭代的模型参数：

θ (i + 1) = a r g m a x θ Q (θ, θ (i))

$\theta^{(i+1)} = arg max_{\theta} Q(\theta, \theta^{(i)})$
每一次迭代中参数计算公式表示可得到：
这里写图片描述

最终迭代计算到参数没有明显的变化时为止。

实例代码：

import math
import copy
import numpy as np
import matplotlib.pyplot as plt

isdebug = False

# 指定k个高斯分布参数，这里k=2。2个高斯分布具有相同均方差Sigma，均值分别为Mu1,Mu2。
def ini_data(Sigma,Mu1,Mu2,k,N):
    global X
    global Mu
    global Expectations
    X = np.zeros((1,N))
    Mu = np.random.random(2)
    Expectations = np.zeros((N,k))
    for i in xrange(0,N):
        if np.random.random(1) > 0.5:
            X[0,i] = np.random.normal()*Sigma + Mu1
        else:
            X[0,i] = np.random.normal()*Sigma + Mu2
    if isdebug:
        print "***********"
        print u"初始观测数据X："
        print X

# EM算法：步骤1，计算E[zij]
def e_step(Sigma,k,N):
    global Expectations
    global Mu
    global X
    for i in xrange(0,N):
        Denom = 0
        for j in xrange(0,k):
            Denom += math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2)
        for j in xrange(0,k):
            Numer = math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2)
            Expectations[i,j] = Numer / Denom
    if isdebug:
        print "***********"
        print u"隐藏变量E（Z）："
        print Expectations

# EM算法：步骤2，求最大化E[zij]的参数Mu
def m_step(k,N):
    global Expectations
    global X
    for j in xrange(0,k):
        Numer = 0
        Denom = 0
        for i in xrange(0,N):
            Numer += Expectations[i,j]*X[0,i]
            Denom +=Expectations[i,j]
        Mu[j] = Numer / Denom 

# 算法迭代iter_num次，或达到精度Epsilon停止迭代
def run(Sigma,Mu1,Mu2,k,N,iter_num,Epsilon):
    ini_data(Sigma,Mu1,Mu2,k,N)
    print u"初始<u1,u2>:", Mu
    for i in range(iter_num):
        Old_Mu = copy.deepcopy(Mu)
        e_step(Sigma,k,N)
        m_step(k,N)
        print i,Mu
        if sum(abs(Mu-Old_Mu)) < Epsilon:
            break

if __name__ == '__main__':
   run(6,40,20,2,1000,1000,0.0001)
   plt.hist(X[0,:],50)
   plt.show()