1.极大似然估计
原理:假设在一个罐子中放着许多白球和黑球,并假定已经知道两种球的数目之比为1:3但是不知道那种颜色的球多。如果用放回抽样方法从罐中取5个球,观察结果为:黑、白、黑、黑、黑,估计取到黑球的概率为p;
假设p=1/4,则出现题目描述观察结果的概率为:(1/4)4*(3/4) = 3/1024
假设p=3/4,则出现题目描述观察结果的概率为:(3/4)4*(1/4) = 81/1024
由于81/1024 > 3/1024,因此任务p=3/4比1/4更能出现上述观察结果,所以p取3/4更为合理
以上便为极大似然估计的原理
定义如下图:(图片来自浙江大学概率论课程课件)
2.知晓了极大似然估计的原理之后,我们可以利用极大似然估计的原理来解决如下问题:
即,若给定一圈样本x1,x2.....xn,已知他们服从高斯分布N(μ,σ),要求估计参数均值μ,标准差σ
(1) 高斯分布的概率密度为:
(2) 利用上述极大似然估计的原理,构建似然函数为:
(3) 为例求解方便我们取对数似然:
(4) 我们的目标是求上述l(x)的最大值,对上式,分别关于μ,σ求二阶导数,很容易证明2次倒数均小于0 ,所以上述函数关于μ,和σ均为凹函数,极大值点满足一阶导数等于0,故通过对μ,和σ求偏导并且倒数为0 我们即可得到如下等式:
3.EM算法原理推导
3.1 EM算法与极大似然估计的区别于联系(直接饮用李航-统计学习方法中的内容)
概率模型有时即含有观测变量,又含有隐变量或潜在变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或者贝叶斯估计法估计模型参数。但是当模型含有隐量时,就不能简单的用这些估计方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法
什么是隐变量?
举例:比如现要在一所学校中随机选取1000个人测量身高,最终我们会得到一个包含1000个身高数据的数据集,此数据集就称为观测变量,那这1000个学生中,既有男生又有女生,我们在选取完成以后并不知道男生和女生的比例是多少?此时这1000名学生中男生的占比以及女生的占比就称为隐变量
3.2 有了上述简单的认识之后,下边解决EM算法的推导过程
在对EM算法原理进行推导之前,先用一个实例理解一下下文中θ所表示的意义: