高斯混合模型

定义

先给出高斯混合模型的定义,高斯混合模型是指具有如下形式的概率分布模型:

p(x|\theta)=\sum_{k=1}^{K}\alpha_k\phi (x|\theta_k)                                       (1)

其中,\alpha_k是系数,且\alpha_k \geq 0\sum_{k=1}^{K}\alpha_k=1,而\phi(y|\theta_k)是高斯分布密度,\theta_k=(\mu_k, \sigma_k^2),对于随机变量y是一维数据时,

                   (2)

称为第k个分模型。理论上只要分模型足够多,并且各分模型的系数设置合理,就能够产生任意分布的样本。

分析

高斯混合模型属于生成模型,可以设想观测数据y_jj=1,2,...,N,是这样生成的:首先以概率\alpha_k选择第k个分模型,然后由第k个分模型的概率分布生成观测数据y_j。这里我们先约定:x^{(i)}表示为第i个样本的观测变量;z^{(i)}表示第i个样本所属的分模型,是隐变量;为了方便,统一用\theta表示模型参数\alpha\mu\sigma^2(对于一维数据)。观测数据是能直接观测到的,已知的;而反映第i个样本来自第k个分模型的数据是未知的,称为隐随机变量。一般地,用x表示观测随机变量的数据;z表示隐随机变量的数据。x称为不完全数据,而y和z连在一起称为完全数据

为求模型参数,先计算其似然函数:

(3) 

 对数似然为

(4) 

 可以看到,GMM通过求不完全数据的边缘概率来得到完全数据的似然函数。其中,\alpha_k对应于p(z^{(i)}=k|\theta)\phi (x^{(i)}|\mu_k;\sigma_k)对应于p(x^{(i)}|z^{(i)}=k;\theta)。因此

(4) 

使用EM算法求解。 

EM算法求解参数

接下来使用EM算法来求解参数,EM算法分为E步,求期望;和M步,求期望最大化时的参数值。

E-step

直接对(4)求导来求得参数解不太现实,想办法将它转化。先给转化后的形式,再给分析:

(5)

 (5)中步骤二给每个样本i都引入了一个分布\varpi ^{(i)},满足

(6)

 而步骤三是由Jensen不等式得到。Jensen不等式:对于一个凸(或凹)函数f(x),其满足E(f(x))\geq f(E(x))(或f(E(x))\geq E(f(x))),当且仅当变量x为常数时等号成立。对数函数ln(\cdot )为凹函数,因此

(7)  

 即期望的函数大于等于函数的期望。下一步是要使步骤三中的等号成立,使得对原优化问题转化为对步骤三的优化。前面说过,等号成立的条件是随机变量为常数,即

(8) 

 其实这里只要你眼睛够犀利,可以直接看出\sum_{K}^{k=1}p(z^{(i)}=k|\theta)p(x^{(i)}|z^{(i)}=k;\theta)=c,看不出也没关系,可以简单证明:由(8)可知p(z^{(i)}=k|\theta)p(x^{(i)}|z^{(i)}=k;\theta)=c\varpi _{k}^{(i)}

 两边同时求和可得\sum_{k=1}^{K}p(z^{(i)}=k|\theta)p(x^{(i)}|z^{(i)}=k;\theta)=c\sum_{k=1}^{K}\varpi _{k}^{(i)}=c,则

(9)

 即在给定\theta后,我们就能使用(9)求出\varpi ^{(i)}\varpi^{(i)}_k成为样本i对第k个分模型的响应度。GMM中这一步其实就是在对每个样本点聚类操作。确定了\varpi ^{(i)}后,(5)就退化成只关于\theta的函数。

M-step

求模型参数:固定\varpi ^{(i)}后最大化求解模型参数,即

 (10)

高斯混合模型参数估计的EM算法步骤

通过以上推导可以总结算法步骤如下:

(1)初始化模型的参数值。EM算法对初始值较敏感,不同的初始值可能得到不同的参数估计值。

(2)E-step:依据当前模型参数,计算分模型k对观测样本数据的响应度。

\varpi ^{(i)}_{k}=\frac{\alpha_k\phi(x^{(i)}|\theta_k)}{\sum_{k=1}^{K}\alpha_k\phi(x^{(i)}|\theta_k)}

(3)M-step:计算新一轮迭代的模型参数

(4)重复步骤(2)(3),直至达到收敛。

reference

(1)《统计学习方法》,李航

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值