混合高斯模型

一、高斯模型简介

      首先介绍一下单高斯模型(GSM)和高斯混合模型(GMM)的大概思想。

1.单高斯模型

      如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存在的有关变量的一种统计规律,例如身高,考试成绩等;而且有很好的数学性质,具有各阶导数,变量频数分布由μ、σ完全决定等等,在许多领域得到广泛应用。在这里简单介绍下高斯分布的概率密度分布函数: 

        其中θ=(μ,σ2);

2.高斯混合模型

      注:在介绍GMM的时候,注意跟K-means的相似点

      K个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类,与K-means一样,K的取值需要事先确定,具体的形式化定义如下:

      其中,是样本集合中k类被选中的概率:,其中z=k指的是样本属于k类,那么可以表示为,很显然,y是观测数据。

       这里如果我们事先知道每个样本的分类情况,那么求解GMM的参数非常直观,如下表示:

       假设 有K个类,样本数量分别为N1,N2,…,NkN1+N2+…+Nk=N,即有观测数据,第k个分类的样本集合表示为S(k),那么公式(2)中的三个参数可以表示为:

 

 

       这样是理想情况,例如给你一堆人类的身高的数据,以及对应的性别,那么这个就是估计两个分量的高斯混合模型,需要学习至少5个参数(事实是6个,另外一个可以有1-α得出)。但是如果给你的人类身高的数据,为给出相应的性别的数据,这样进行学习的话就是一个聚类问题,同样可以知道需要聚成两类(注:许多时候连K也是需要事先假设的),直观上可以按照跟K-means算法以致的思路,只是这里的属于某个类是一个概率,而不是一定的。

       首先可以先假设聚成K类,然后选择参数的初始值θ0(总共2K个变量),这里需要引进一个变量,表示的是第j个观测来自第k个component的概率,即数据j由第k个Component 生成的概率,或者可以说是这个component上生成这个数据的概率,可以根据后验概率计算得到:

 

       注:这个与的区别,指的是第k个component被选中的概率,需要对所有的数据j进行累加

       公式(6)=>(7)=>(8)=>(9)分别使用了贝叶斯估计,全概率公式以及的定义就可得出。

       上面是根据数据j计算各个component的生成概率,而现在根据每个component生成了1,2,...N点数据,每个component有事一个高斯分布,那么根据α,μ,σ2的定义又可以直观地得出如下式子:

 

       这样其实只是把原本样本一定属于某一类改成了一个样本属于某类的概率而k类样本数量Nk变成了概率相加,就可以直接得出(10),(11),(12)的公式。

       不知不觉就把EM算法的两步迭代给写完了,即将公式(9)和公式(10),(11),(12)进行相互迭代,直到收敛,高斯混合模型就聚类好了。

       下面给出较为清晰的训练高斯混合模型的算法步骤:

   算法1

        选取初始值初始化θ,

        repeat{

          (1)估计每个数据的每个component生成概率,即

           

          (2)根据,估计每个component的参数,得:

                            公式(10),(11),(12)

         }直到收敛

         这样,高斯混合模型已经介绍完,当然上面只是直观介绍,具体的与EM算法思想对应关系说明会放在后面一节。

         再算法推导之前,我们先看下K-means和高斯混合模型的异同点。

3.高斯混合模型与K-means异同点

         相同点:(1)需要指定K值

                    (2)需要指定初始值,例如K-means的中心点,GMM的各个参数

                    (3)都是含有EM算法思想

         不同点:(1)优化目标函数不同,K-means:最短距离,GMM:最大化log似然估计

                    (2)E步的指标不同,K-means:点到中心的距离(硬指标),GMM:求解每个观测数据        的每个component的概率(软指标)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值