1.似然函数
统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)
似然函数在推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次,落地都是正面向上”这种事件,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。
2.最大似然估计
最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现 的可能性最大的那个θ 作为真θ 的估计。
分两种情进行分析:
1.离散型总体
设X为离散型随机变量,其概率分布的形式为P{X=x}=p(x,θ1, θ2,…θk ) ,则样本X1,X2…Xn 的概率分布为P{X1=x1,X2=x2…Xn=xn } =∏p(xi,θ1, θ2,…θk )(i∈(1,2,3,…,n)),在θ1, θ2,…θk 固定时,上式表示X1,X2…Xn取值x1,x2…xn的概率;当x1,x2…xn固定时,它是θ1, θ2,…θk的函数,我们把它记为L(θ1, θ2,…θk)并称L(θ1, θ2,…θk)= ∏p(xi,θ1, θ2,…θk )(i∈(1,2,3,…,n))为似然函数。似然函数L(θ1, θ2,…θk)的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值x1,x2…xn,那它出现的可能性应该是大的,即似然函数的值应该是大的。因而我们选择使L(θ1, θ2,…θk)达到最大值的那个θ作为真θ的估计。
2.连续型总体
设X为连续型随机变量,其概率密度函数为f(x,θ1, θ2,…θk ),则X1,X2…Xn为从该总体抽出的样本。因为X1,X2…Xn相互独立且同分布,于是,样本的联合概率密度函数为
在θ1, θ2,…θk是固定时,它是X1,X2…Xn在x1,x2…xn处的密度,它的大小与X1,X2…Xn落在x1,x2…xn附近的概率的大小成正比,而当样本值x1,x2…xn固定时,它是θ1, θ2,…θk的函数。我们仍把它记为L(θ1, θ2,…θk)并称为似然函数。类似于刚才的讨论,我们选择使L(θ1, θ2,…θk)达到最大值的那个θ作为真θ的估计。
总之,在有了试验结果即样本值x1,x2…xn时,似然函数L(θ1, θ2,…θk)反映了θ 的各个不同值导出这个结果的可能性的大小。我们选择使L(θ1, θ2,…θk)达到最大值的那个θ作为真θ的估计。这种求点估计的方法就叫作最大似然法。
3.最大似然估计的求法
假定现在我们已经观测到一组样本X1,X2…Xn要去估计未知参数θ1, θ2,…θk。一种直观的想法是,哪一组能数值使现在的样本X1,X2…Xn出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。这里,假定我们有一组样本X1,X2…Xn .如果对参数的两组不同的值θ’1, θ’2,…θ’k 和θn1, θn2,…θnk ,似然函数有如下关系
那么,从L(x1,x2…xn;θ1, θ2,…θk)又是概率密度函数的角度来看,上式的意义就是参数θ’1, θ’2,…θ’k使X1,X2…Xn出现的可能性比参数θn1, θn2,…θnk使X1,X2…Xn出现的可能性大,当然参数θ’1, θ’2,…θ’k比θn1, θn2,…θnk更像是真正的参数.这样的分析就导致了参数估计的一种方法,即用使似然函数达到最大值的点 θ*1, θ*2,…θ*k作为未知参数的估计,这就是所谓的最大似然估计。
现在我们讨论求最大似然估计的具体方法.为简单起见,以下记L(x1,x2…xn;θ1, θ2,…θk) ,求θ的极大似然估计就归结为求L(θ)的最大值点.由于对数函数是单调增函数,所以
与L(θ)有相同的最大值点。而在许多情况下,求log L(θ)的最大值点比较简单,于是,我们就将求L(θ)的最大值点改为求log L(θ)的最大值点.对log L(θ)关于θ1, θ2,…θk求导数,并命其等于零,得到方程组
称为似然方程组。解这个方程组,又能验证它是一个极大值点,则它必是log L(θ),也就是L(θ)的最大值点,即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情 况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。
4.总结
最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
求最大似然函数估计值的一般步骤:
(1) 写出似然函数(概率函数)
(2) 对似然函数取对数,并整理
(3) 求导数
(4) 解似然方程
最大似然估计也是统计学习中经验风险最小化(RRM)的例子。如果模型为条件概率分布,损失函数定义为对数损失函数,经验风险最小化就等价于最大似然估计。
小结一下,最大似然估计是在给定模型(含有未知参数)和样本集的情况下,用来估计模型参数的方法。其基本思想是找到最佳的模型参数,使得模型实现对样本的最大程度拟合,也就使样本集出现的可能性最大。