超容易理解的极大似然估计

__kirito__

于 2020-06-23 22:41:15 发布

阅读量1k

点赞数

文章标签：概率论算法机器学习

本文链接：https://blog.csdn.net/qq_34768910/article/details/106928800

版权

一、为什么要用极大似然估计

    在一般情况下，要求一个样本属于哪一类，首先要求出样本在属于各类的概率，即后验概率：P(w|x)，其中w代表类别(w可能取值w1、w2、…wN)，我们通常使用贝叶斯公式来求得：

    但有时样本数目有限，我们无法准确获得先验概率P(wi)以及类条件概率P(x|wi),所以我们需要对二者进行估计，从而利用贝叶斯公式求得后验概率。

    对于估计先验概率P(wi)以及条件概率P(x|wi)而言，前者的估计相对简单，我们可以利用经验或是将频率当作概率来估计出先验概率；而类条件概率的估计由于样本数量限制等原因变得十分困难，所以我们通过将对类条件概率的估计转化为对概率模型的参数估计，如假设样本服从参数未知的高斯分布，我们只需要利用样本估计出高斯分布的参数即可近似完成对类条件概率的估计。即将对完全未知的类条件概率的估计问题转化为概率分布模型已知的参数估计问题，读到这我们也可以看出选取的概率模型的重要性。若选取的模型正确，那么对样本的拟合也会达到非常好的效果，且样本越多，拟合效果越好。但若选取的概率模型不合适，那么无论对参数如何估计都不能达到令人满意的效果。

二、极大似然估计

    通俗来讲，极大似然估计就是已知样本，反推最可能导致样本得到这个结果的参数值。

    由于样本独立同分布，可以设样本集D={x1, x2,…,xn},通过样本集D来估计参数。

    定义样本集D相对于参数θ似然函数为联合概率密度函数：
记作l(θ）=  P(D|θ）,可以展开为：

    若θ* 可以令l(θ）达到最大，则称θ*为θ的极大似然估计量，它是样本集的函数，且只与样本集相关：
在这里插入图片描述

三、对数似然函数

    为了便于求导数，定义对数似然函数：

             H(θ）=ln l(θ）

    极大似然估计量就可以表示为：
在这里插入图片描述
    上式的计算可以通过令对数似然函数相对于参数的导数（多参数为梯度）为0求得。其结果θ*就像它的名字是一个估计量，数据量越大估计才能越准确。

四、总结

1、极大似然估计是一种参数估计方法，它假设已知样本所满足的（位置参数的）概率分布形式，通过根据样本估计参数来近似得到样本的类条件概率；
2、在进行极大似然函数时要选择适合样本集D的概率分布模型，若模型选择错误，即使再多的样本也难以拟合样本集D真实的概率分布，估计的结果也会不准确；
3、为计算方便，通常取对数似然函数进行参数估计；
4、若对数似然函数不连续无法求导，可以利用极大似然估计的定义，通过最大化似然函数求得最优参数。