判别模型求的是条件概率p(y|x),
生成模型求的是联合概率p(x,y)
常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件 随机场、神经网络等。
常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。
所以这里说的高斯混合模型,朴素贝叶斯模型都是求p(x,y)联合概率的。(下面推导会见原因)
套路小结:
下面的EM算法,GMM等三个模型都是做这同一件事:设法求出联合概率,然后对出现的参数进行估计。
作用是进行参数估计。
应用:(因为是无监督,所以一般应用在聚类上,也用在HMM参数估计上)所以凡是有EM算法的,一定是无监督学习.因为EM是对参数聚集
给定训练样本是
我们想要知道每个样例隐含的类别z,使是p(x,z)最大,(即
故p(x,z)最大似然估计是:
所以可见用到EM算法的模型(高斯混合模型,朴素贝叶斯模型)都是求p(x,y)联合概率,为生成模型。
对上面公式,直接求θ一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。
EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化ℓ(θ),我们可建立ℓ的下界(E步),再优化下界(M步),见下图第三步,取的就是下界
解释上式:
对于每一个样例 i,让Qi表示该样例隐含变量 z 的某种分布,Qi满足的条件是 (如果 z 是连续性的,那么Qi是概率密度函数(因子分析模型就是如此),需要将求和符号换成积分符号即:因子分析模型是如此,这个会用在EM算法的M步求。
比如要将班上学生聚类,假设隐藏变量z是身高,那么就是连续的高斯分布。 如果按照隐藏变量是男女,那么就是伯努利分布(即两点分布:)了。
上总式第1到第2步是分子分母同乘一个数,
第2到3步是:用了jasen不等式:
如图:
至此推导完上面3步公式,下面所有模型都是对上面第3步公式进行参数估计的!!!
下面 对第三步的Q(z)进行推导:
(见讲义)
所以Q(Z)最终表示:
所以EM算法:
(承上启下:在m步中,最终是对参数θ进行估计,而这一步具体到高斯混合模型,则θ有三个参数:mu,phi,sigma代替,即高斯混合模型要推导三个参数,下面会讲)
至此,这就是EM算法所有推导,EM算法推导也只能推导这些步,具体再将这些公式推导下去,就要结合模型了。
总结:
如果将样本看作观察值, 潜在类别看作是隐藏变量,
对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。
例子:在Mitchell的Machine Learning书中也举了一个EM应用的例子,将班上学生的身高都放在一起,要求聚成两个类。这些身高可以看作是男生身高的高斯分布和女生 身高的高斯分布组成。因此变成了如何估计每个样例是男生还是女生,然后在确定男女生情 况下,如何估计均值和方差,里面也给出了公式。
二、混合高斯模型:
将EM算法融到高斯混合模型,将上面EM算法的E步、M步的公式再具体推导下去。
整个模型简单描述为:
对于每个样例
然后根据所对应的 k 个多值高斯分布中的一个,生成样例,整个过程称作混合高斯模型。
(即对样例x, 最终目的是生成样例x。(??)即对样例x,从k个类别抽取一个z,从根据z生成x。)
特别地,混合高斯模型的
(1)隐含类别标签
(2)样例被认为满足
所以 上面(1)(2)可知混合高斯模型中,
其中∅j就是样本类别中
所以由上面(1)(2)合并得,最大似然估计p(x, z),对数化后如下:
注意第二步有两个迭加号。第二个迭加号是z(i)=1 直到k个类别。z只有k个类别。
参考一、中EM算法推导:
所以混合高斯模型:
从EM算法步骤的
1. E步:
(这里贝叶斯公式,分子是z=j一种类别情况,分母是z={1~k}k中类别的累加)
1)对上式的分子第一项:(由上面加黄色背景段文字可知)服从高斯分布:,
故
2)对(E)式分子第二项(又上面可知) 服从 多项式分布:
2.M步:
先给出最终结果为:
先看EM算法的M步:
(i)对μi 求导得(固定∅i,Σi):
(ii)对∅i求导(固定μi,Σi):
因为∅i是 隐性随机变量z的多项式分布概率值,又有约束条件
又由上面(M)步公式:
(why?????)
,
(iii)Σ的推导:
也类似,不过稍微复杂一些,毕竟是矩阵。结果在之前的混合高斯模型中已经给出。
3.迭代:对上面E,M步进行迭代,最后一定会收敛(证明见讲义)
如图,最终收敛成2个类,这里的样例收敛于椭圆,原因是高斯分布的二维几何图形是一个椭圆,(具体几何图形见下面因子分析,有详解)
拓展:
混合高斯模型GMM与K-means比较:
相同点:都是可用于聚类的算法;都需要指定K值。
不同点:对GMM来说,引入了概率;GMM可以给出一个样本属于某类的概率是多少。所以高斯混合模型既可以做聚类,也可做概率密度估计
news.google.com就是文本聚类一个应用
怎样在文本新闻问题用到EM算法呢?
----->混合朴素贝叶斯模型。混合朴素贝叶斯模型有2个:多值伯努利事件模型(文本聚类就是用此);多项式事件模型。
给定m个样本的训练集合是
故= { wordj 是否出现在文本i 里}
我们要对(值是0或1) 进行建模,是隐含随机变量,这里取两个值:2个聚类。
又
其中p(y=1)表示类别1(例如类别1表示垃圾邮件)的在所有文本的概率。这里xi表示一个单词,取值只有0或者1,表示出现在文本里或者没有出现。
EM算法步骤:
1.E步:
2.M步:
对比贝叶斯原公式:
全式表示:类0包含词j的比率
3.迭代上面12步骤,收敛,求出参数估计,带回联合概率,将联合概率排序,由联合概率最高值 ,可得知哪个文本是输入哪个类了。