似然估计总结

最新推荐文章于 2024-07-28 10:10:44 发布

Pd-pony

最新推荐文章于 2024-07-28 10:10:44 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：似然函数似然估计

本文链接：https://blog.csdn.net/u012845311/article/details/73549248

版权

机器学习专栏收录该内容

18 篇文章 5 订阅

订阅专栏

1.似然函数

统计学中，似然函数是一种关于统计模型参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)

似然函数在推断统计学（Statistical inference）中扮演重要角色，尤其是在参数估计方法中。在教科书中，似然常常被用作“概率”的同义词。但是在统计学中，二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次，落地都是正面向上”这种事件，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。

2.最大似然估计

最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个θ 作为真θ 的估计。

分两种情进行分析：

1．离散型总体　

设X为离散型随机变量，其概率分布的形式为P{X=x}=p(x,θ₁, θ₂,…θ_k ) ，则样本X₁,X₂…X_n 的概率分布为P{X₁=x₁,X₂=x₂…X_n=x_n } =∏p(x_i,θ₁, θ₂,…θ_k )(i∈(1,2,3,…,n))，在θ₁, θ₂,…θ_k 固定时，上式表示X₁,X₂…X_n取值x₁,x₂…x_n的概率；当x₁,x₂…x_n固定时，它是θ₁, θ₂,…θ_k的函数，我们把它记为L(θ₁, θ₂,…θ_k)并称L(θ₁, θ₂,…θ_k)= ∏p(x_i,θ₁, θ₂,…θ_k )(i∈(1,2,3,…,n))为似然函数。似然函数L(θ₁, θ₂,…θ_k)的值的大小意味着该样本值出现的可能性的大小。既然已经得到了样本值x₁,x₂…x_n，那它出现的可能性应该是大的，即似然函数的值应该是大的。因而我们选择使L(θ₁, θ₂,…θ_k)达到最大值的那个θ作为真θ的估计。

2．连续型总体

设X为连续型随机变量，其概率密度函数为f(x,θ₁, θ₂,…θ_k ),则X₁,X₂…X_n为从该总体抽出的样本。因为X₁,X₂…X_n相互独立且同分布，于是，样本的联合概率密度函数为

在θ₁, θ₂,…θ_k是固定时，它是X₁,X₂…X_n在x₁,x₂…x_n处的密度，它的大小与X₁,X₂…X_n落在x₁,x₂…x_n附近的概率的大小成正比，而当样本值x₁,x₂…x_n固定时，它是θ₁, θ₂,…θ_k的函数。我们仍把它记为L(θ₁, θ₂,…θ_k)并称为似然函数。类似于刚才的讨论，我们选择使L(θ₁, θ₂,…θ_k)达到最大值的那个θ作为真θ的估计。

总之，在有了试验结果即样本值x₁,x₂…x_n时，似然函数L(θ₁, θ₂,…θ_k)反映了θ 的各个不同值导出这个结果的可能性的大小。我们选择使L(θ₁, θ₂,…θ_k)达到最大值的那个θ作为真θ的估计。这种求点估计的方法就叫作最大似然法。

3.最大似然估计的求法

假定现在我们已经观测到一组样本X₁,X₂…X_n要去估计未知参数θ₁, θ₂,…θ_k。一种直观的想法是，哪一组能数值使现在的样本X₁,X₂…X_n出现的可能性最大，哪一组参数可能就是真正的参数，我们就要用它作为参数的估计值。这里，假定我们有一组样本X₁,X₂…X_n .如果对参数的两组不同的值θ’₁, θ’₂,…θ’_k 和θⁿ₁, θⁿ₂,…θⁿ_k ，似然函数有如下关系

那么，从L(x₁,x₂…x_n;θ₁, θ₂,…θ_k)又是概率密度函数的角度来看，上式的意义就是参数θ’₁, θ’₂,…θ’_k使X₁,X₂…X_n出现的可能性比参数θⁿ₁, θⁿ₂,…θⁿ_k使X₁,X₂…X_n出现的可能性大，当然参数θ’₁, θ’₂,…θ’_k比θⁿ₁, θⁿ₂,…θⁿ_k更像是真正的参数.这样的分析就导致了参数估计的一种方法，即用使似然函数达到最大值的点 θ^*₁, θ^*₂,…θ^*_k作为未知参数的估计，这就是所谓的最大似然估计。

现在我们讨论求最大似然估计的具体方法.为简单起见，以下记L(x₁,x₂…x_n;θ₁, θ₂,…θ_k) ,求θ的极大似然估计就归结为求L(θ)的最大值点.由于对数函数是单调增函数，所以

与L(θ)有相同的最大值点。而在许多情况下，求log L(θ)的最大值点比较简单，于是，我们就将求L(θ)的最大值点改为求log L(θ)的最大值点.对log L(θ)关于θ₁, θ₂,…θ_k求导数，并命其等于零，得到方程组

称为似然方程组。解这个方程组，又能验证它是一个极大值点，则它必是log L(θ)，也就是L(θ)的最大值点，即为所求的最大似然估计。大多常用的重要例子多属于这种情况。然而在一些情况下，问题比较复杂，似然方程组的解可能不唯一，这时就需要进一步判定哪一个是最大值点。

4.总结

最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤：
（1）写出似然函数(概率函数)
（2）对似然函数取对数，并整理
（3）求导数
（4）解似然方程

最大似然估计也是统计学习中经验风险最小化（RRM）的例子。如果模型为条件概率分布，损失函数定义为对数损失函数，经验风险最小化就等价于最大似然估计。

小结一下，最大似然估计是在给定模型（含有未知参数）和样本集的情况下，用来估计模型参数的方法。其基本思想是找到最佳的模型参数，使得模型实现对样本的最大程度拟合，也就使样本集出现的可能性最大。