用c语言实现EM算法,EM算法

最新推荐文章于 2023-10-30 01:46:20 发布

weixin_39598568

最新推荐文章于 2023-10-30 01:46:20 发布

阅读量318

点赞数

文章标签：用c语言实现EM算法

缘起

最近室友都找实习。面试时，常被问到的是，一些基础的机器学习知识和最新的深度学习模型，比如逻辑回归、正则项、f1的计算、类别不平衡的处理、LSTM、Attention、Transformer、word2vec、glove、ELMo、BERT等等。因此，我打算系统地、扎实地将这些知识学习一遍，同时将学习的笔记写成博客，以供自己以后查看。如果不幸帮助了别人，还可以收获一些虚荣:-)。对吧~

万事开头难。所以，先从学过的EM算法开始吧。

从贝叶斯公式到极大似然估计

贝叶斯估计

已知样本的特征向量

math?formula=x ，为了求样本的类别

math?formula=w ，我们可以使用经典的贝叶斯公式，求解已知特征向量

math?formula=x 时不同类别的概率

math?formula=P(w_i%7Cx) ，

$math?formula=P(w_i%7Cx)%3D%5Cfrac%7BP(x%7Cw_i)P(w_i)%7D%7BP(x)%7D.$

然后，选择使得

math?formula=P(w_i%7Cx) 中最大的

math?formula=w_i 作为样本类别的估计值，即有

math?formula=%5Cbegin%7Balign%7D%20%5Chat%7Bw%7D%26%3D%5Carg%20%5Cmax_%7Bi%7D%20P(w_i%7Cx)%5C%5C%20%26%3D%5Carg%20%5Cmax_%7Bi%7D%20P(x%7Cw_i)P(w_i).%20%5Cend%7Balign%7D

其中，

math?formula=P(w_i) 被称为先验概率，可通过统计标记样本中不同类别样本的比例得到，即

$math?formula=P(w_i)%3D%5Cfrac%7B%5C%23%20w_i%7D%7BN%7D.$

math?formula=P(x%7Cw_i) 被称为类条件概率，当样本的特征数为1且是为离散值时，

$math?formula=P(x%7Cw_i)%3D%5Cfrac%7B%5C%23(x%2Cw_i)%7D%7B%5C%23%20w_i%7D.$

其中，

math?formula=%5C%23(x%2Cw_i) 表示特征为

math?formula=x 且类别为

math?formula=w_i 的样本数目。样本特征数不为1的情况，这里暂且不讨论。当特征

math?formula=x 的取值是连续值的时候，问题就复杂了起来。我们可以使用极大似然估计来解决这个问题。

极大似然估计

在极大似然估计中，我们首先假设

math?formula=P(x%7Cw_i) 服从一个概率分布，常用的是正态分布，即

$math?formula=P(x%7Cw_i%3B%5Cmu%2C%5Csigma)%3D%5Cfrac%7B1%7D%7B%5Csqrt%7B2%5Cpi%7D%5Csigma%7D%5Cexp%5Cleft%5B-%5Cfrac%7B1%7D%7B2%7D%5Cleft(%5Cfrac%7Bx-%5Cmu%7D%7B%5Csigma%7D%5Cright)%5E2%5Cright%5D.$

记参数

math?formula=%5Ctheta%3D(%5Cmu%2C%5Csigma%20) ，当我们得到一组

math?formula=%5Ctheta 时，类条件概率

math?formula=P(x%7Cw_i) 随之确定。

为了求解

math?formula=%5Ctheta ，令所有类别为

math?formula=w_i 的样本集合为

math?formula=D ，假设

math?formula=D 中样本

math?formula=x_1%2C%5Ccdots%2Cx_n 之间相互独立，那么有

math?formula=%5Cbegin%7Balign%7D%20P(D%7C%5Ctheta)%26%3DP(x_1%2Cx_2%2C%5Ccdots%2Cx_n%7C%5Ctheta)%3D%5Cprod_%7Bi%3D1%7D%5En%20p(x_i%7C%5Ctheta)%20%5Cend%7Balign%7D

math?formula=P(D%7C%5Ctheta) 被称为似然函数，它描述了参数

math?formula=%5Ctheta 的合理程度。一组合适的参数

math?formula=%5Ctheta 应能使得

math?formula=P(D%7C%5Ctheta) 尽量大。所以，求解

math?formula=%5Ctheta 最直观的想法是找到一组

math?formula=%5Ctheta 使得

math?formula=P(D%7C%5Ctheta) 最大。为了计算的方便，我们定义对数似然函数

math?formula=l(%5Ctheta)%3D%5Cln%20P(D%7C%5Ctheta)%3D%5Csum_%7Bi%3D1%7D%5En%20%5Cln%20P(x_i%7C%5Ctheta).

于是，

math?formula=%5Ctheta 的估计值为

math?formula=%5Chat%7B%5Ctheta%7D%3D%5Carg%20%5Cmax_%7B%5Ctheta%7D%20l(%5Ctheta).

由于极值点往往在导数等于0的地方取得，我们常常通过求导的方法求解上式，即

$math?formula=%5Cfrac%7B%5Cpartial%20l(%5Chat%7B%5Ctheta%7D)%7D%7B%5Cpartial%20%5Cmu%7D%20%3D%200%2C%20%5Cfrac%7B%5Cpartial%20l(%5Chat%7B%5Ctheta%7D)%7D%7B%5Cpartial%20%5Csigma%7D%3D0.$

解得

$math?formula=%5Cbegin%7Balign%7D%20%5Chat%7B%5Cmu%7D%26%3D%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi%3D1%7D%5En%20x_i%2C%5C%5C%20%5Chat%7B%5Csigma%7D%26%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5En%20(x_i-%5Chat%7B%5Cmu%7D)%5E2.%20%5Cend%7Balign%7D$

引入EM算法

在上一节，我们看到极大似然估计通过最大化似然函数的方法，找到模型的最佳参数。在这个过程中，我们需要对对数似然函数求偏导，令导数等于0，进而得到参数的估计值。然而，在某些复杂的模型中，由于存在“隐变量”，我们难以通过对对数似然函数求偏导的方法得到参数的估计值。

我们考虑如下的三硬币问题

假设有3枚硬币，分别记作A、B、C，这些硬币正面朝上的概率分别为

math?formula=%5Cpi%2Cp%2Cq 。现进行如下的抛掷实验：首先掷硬币A，根据其结果选择硬币B和硬币C，如果是正面选择硬币B，如果是反面选择硬币C；然后掷选出的硬币，记录掷硬币的结果，正面记作1，反面记作0；独立地重复n次实验(这里，n=10)，观测结果如下：

math?formula=1%2C1%2C0%2C1%2C0%2C0%2C1%2C0%2C1%2C1.

假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币模型的参数

math?formula=%5Cpi%2Cp%2Cq 。

记

math?formula=%5Ctheta%3D(%5Cpi%2Cp%2Cq) 。首先，让我们尝试使用极大似然估计的方法，写出对数似然函数，然后求解

math?formula=%5Ctheta 。不妨令每次实验中硬币A的抛掷结果为

math?formula=z ，硬币B和C的抛掷结果为

math?formula=y 。于是

math?formula=P(y%7C%5Ctheta)%3D%5Csum_z%20P(y%2Cz%7C%5Ctheta)%3D%5Csum_z%20P(z%7C%5Ctheta)P(y%7Cz%2C%5Ctheta).

显然，

math?formula=z 的取值有0、1两种，并且

math?formula=P(z%3D0%7C%5Ctheta)%3D1-%5Cpi%2CP(z%3D1%7C%5Ctheta)%3D%5Cpi 。而当

math?formula=z%3D0 时，意味着选择了硬币C，此时

math?formula=P(y%7Cz%2C%5Ctheta)%3Dq%5Ey(1-q)%5E%7B1-y%7D ；同理，当

math?formula=z%3D1 时，有

math?formula=P(y%7Cz%2C%5Ctheta)%3Dp%5Ey(1-p)%5E%7B1-y%7D 。于是，上式可展开为

math?formula=P(y%7C%5Ctheta)%3D%5Cpi%20p%5Ey(1-p)%5E%7B1-y%7D%2B(1-%5Cpi)q%5Ey(1-q)%5E%7B1-y%7D.

对于三硬币模型多次抛掷的结果

math?formula=Y%3D%5Cleft%5By_1%2Cy_2%2C%5Ccdots%2Cy_n%5Cright%5D ，有

math?formula=P(Y%7C%5Ctheta)%3D%5Cprod_%7Bi%3D1%7D%5En%20P(y_i%7C%5Ctheta).

相应的对数似然函数为

math?formula=l(%5Ctheta)%3D%5Cln%20P(Y%7C%5Ctheta)%3D%5Csum_%7Bi%3D1%7D%5En%20%5Cln%20%5Cleft%5B%20%5Cpi%20p%5Ey_i(1-p)%5E%7B1-y_i%7D%2B(1-%5Cpi)q%5E%7By_i%7D(1-q)%5E%7B1-y_i%7D%20%5Cright%5D.

事实证明对上式求偏导，令导数等于0，是无法得到解析解的。也就是极大似然估计无法解决上述问题。

使用EM算法求解

一方面，假设我们知道模型参数

math?formula=%5Cpi%2Cp%2Cq ，我们就可以预测某次实验中的抛掷结果来源于硬币B的概率，不妨记

math?formula=%5Cmu%3DP(z%3D1%7Cy%2C%5Ctheta) ，有

$math?formula=%5Cmu%20%3D%20%5Cfrac%7BP(y%7Cz%3D1%2C%5Ctheta)%7D%7BP(y%7Cz%3D1%2C%5Ctheta)%2BP(y%7Cz%3D0%2C%5Ctheta)%7D%20%3D%20%5Cfrac%7B%5Cpi%20p%5Ey(1-p)%5E%7B1-y%7D%7D%7B%5Cpi%20p%5Ey(1-p)%5E%7B1-y%7D%20%2B%20(1-%5Cpi)%20q%5Ey(1-q)%5E%7B1-y%7D%7D.$

另一方面，假设我们已知每次实验中抛掷结果来源于硬币B的概率，我们就可以估计模型参数

math?formula=%5Cpi%2Cp%2Cq ，即

$math?formula=%5Cbegin%7Balign%7D%20%5Chat%7B%5Cpi%7D%20%26%3D%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum_%7Bi%3D0%7D%5En%20%5Cmu_i%2C%5C%5C%20%5Chat%7Bp%7D%20%26%3D%20%5Cfrac%7B%5Csum_%7Bi%3D0%7D%5En%20%5Cmu_iy_i%7D%7B%5Csum_%7Bi%3D0%7D%5En%20%5Cmu_i%7D%2C%5C%5C%20%5Chat%7Bq%7D%20%26%3D%20%5Cfrac%7B%5Csum_%7Bi%3D0%7D%5En%20(1-%5Cmu_i)y_i%7D%7B%5Csum_%7Bi%3D0%7D%5En%20(1-%5Cmu_i%EF%BC%89%7D.%20%5Cend%7Balign%7D$

也就是说，当我们已知模型参数的时候，我们可以计算

math?formula=%5Cmu 的值；当我们知道

math?formula=%5Cmu 的值时，我们可以估计模型参数。对于这种蛋鸡问题，使用迭代法求解是最好不过了。也就是，先假设一组模型参数，比如

math?formula=%5Cpi%3D0.5%2Cp%3D0.5%2Cq%3D0.5 ，然后计算

math?formula=%5Cmu 的值；接着使用

math?formula=%5Cmu 的值，去估计模型参数。重复上述过程多次之后，我们就可以得到

math?formula=%5Chat%7B%5Cpi%7D%3D0.5%2C%5Chat%7Bp%7D%3D0.6%2C%5Chat%7Bq%7D%3D0.6 。

在上述过程中，我们称

math?formula=%5Cmu 为模型的隐变量，也即是无法观测到但也不是模型参数的变量。估计

math?formula=%5Cmu 的过程称为E步，使用

math?formula=%5Cmu 估计模型参数的过程称为M步。下面使用python实现了对三硬币模型的求解。

def E_step(pi,p,q,Y):

Mu = []

for y in Y:

pyz1 = pi * p**y * (1-p)**(1-y)

pyz0 = (1-pi) * q**y * (1-q)**(1-y)

mu = pyz1 / (pyz1 + pyz0)

Mu.append(mu)

return Mu

def M_step(Mu,Y):

n = len(Mu)

pi = sum(Mu)/n

p = sum([Mu[i]*Y[i] for i in range(n)]) / sum(Mu)

q = sum([(1-Mu[i])*Y[i] for i in range(n)]) / (n-sum(Mu))

return pi,p,q

def solve_tree_coin(Y,iter_num):

pi = p = q = 0.5

for i in range(iter_num):

Mu = E_step(pi,p,q,Y)

pi,p,q = M_step(Mu,Y)

print(pi,p,q)

if __name__ == "__main__":

Y = [1,1,0,1,0,0,1,0,1,1]

solve_tree_coin(Y,5)

说句题外话，三硬币问题是没有办法正确估计模型的参数。如

math?formula=%5Cpi%20%3D%200.6%2Cp%20%3D%201%2Cq%20%3D%200 和

math?formula=%5Cpi%3D0.5%2Cp%3D0.6%2Cq%3D0.6 在输出结果上是等价的。毕竟，对于这个模型观测数据太少了，任何方法对此都无能为力。

下面我们将正式地对EM算法进行介绍，并运用EM算法求解混合高斯模型。

EM算法的思想

在这里不介绍EM算法的形式化定义(因为没有必要)，只是概括一下EM算法的核心思想。

EM算法的全称是Expectation Maximization Algorithm，也就是期望极大算法。EM算法适用于含有隐变量的模型。求解过程分为E步和M步：在E步中求解隐变量的期望；在M步中使用隐变量的期望代替隐变量的值，求解模型参数。

理论上(有兴趣的见李航的《统计学习方法)，EM算法并不能保证得到全局最优值，而且很依赖所选取初始值的好坏，但EM算法简化了很多复杂问题的求解。计算机科学中的许多方法都是基于这样的思路。

使用EM求解GMM

首先介绍一下GMM。

GMM的全称是Gauss Mixture Model，即混合高斯模型，也就是将多个高斯分布叠加在一起。假设GMM中高斯分布的数量为M，那么相应的概率密度函数为

math?formula=p(x)%20%3D%20%5Csum_%7Bi%3D1%7D%5EM%20a_iN(x%3B%5Cmu%2C%5CSigma).

如下图就是一个GMM概率密度函数的函数图像。

775cef353705

概率密度函数P(x)=0.7N(-10,2)+0.3N(5,3)的函数图像

GMM产生样本的过程和三硬币模型有些类似，首先按照先验概率

math?formula=a_i 选择一个高斯分布，然后产生一个满足这个高斯分布的样本。如下图即为GMM产生的2维样本数据。

775cef353705

为了使用EM算法，我们首先要确定模型中的隐变量。在GMM中，隐变量是样本属于不同高斯分布的概率

math?formula=P(y%3Di) 。于是在E步，我们这样估计隐变量

$math?formula=P(y_t%3Di)%3D%5Cfrac%7Ba_iN(x_t%3B%5Cmu_i%2C%5CSigma_i)%7D%7B%5Csum_%7Bi%3D1%7D%5EM%20a_iN(x_t%3B%5Cmu_i%2C%5CSigma_i)%7D.$

在M步，模型参数的估计过程如下

$math?formula=%5Cbegin%7Balign%7D%20a_i%20%26%20%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bt%3D1%7D%5En%20P(y_t%3Di)%5C%5C%20%5Cmu_i%20%26%3D%20%5Cfrac%7B%5Csum_%7Bt%3D1%7D%5En%20P(y_t%3Di)x_t%7D%7B%5Csum_%7Bt%3D1%7D%5En%20P(y_t%3Di)%7D%5C%5C%20%5CSigma_t%20%26%3D%20%5Cfrac%7B%5Csum_%7Bt%3D1%7D%5En%20P(y_t%3Di)(x_t-%5Cmu_i)(x_t-%5Cmu_i)%5Et%7D%7B%5Csum_%7Bt%3D1%7D%5En%20P(y_t%3Di)%7D%20%5Cend%7Balign%7D$

介绍EM算法的大多文章都是拿GMM举例的，但作为机器学习中的一类重要的思想，EM算法的应用非常广泛，如IBM翻译模型、主题模型等等。

先写到这里吧。

weixin_39598568

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用c语言实现EM算法,EM算法

缘起最近室友都找实习。面试时，常被问到的是，一些基础的机器学习知识和最新的深度学习模型，比如逻辑回归、正则项、f1的计算、类别不平衡的处理、LSTM、Attention、Transformer、word2vec、glove、ELMo、BERT等等。因此，我打算系统地、扎实地将这些知识学习一遍，同时将学习的笔记写成博客，以供自己以后查看。如果不幸帮助了别人，还可以收获一些虚荣:-)。对吧~万事开头...
复制链接

扫一扫