最大似然估计是对概率密度函数的一种参数估计。就是说,样本的概率密度函数形式是已知的,但是函数中的某些或全部的参数未知,我们需要根据样本来估计这些参数的值。
一、最大似然估计的基本原理
我们首先做以下的基本假设:
- 记待估计的参数为 θ ,这个量不是随机变量,而是确定的值,只是我们还不知道是多少而已;
- 将每类的样本集记作 χi,i=1,2,...,c 。其中每个样本都满足独立同分布;
- 类条件概率密度 p(x|wi) 的函数形式是确定的,就是说我们知道这些变量是服从什么分布,这样才知道是要求哪些未知参数。为了强调 θ 是待估计的参数,我们将 p(x|wi) 写作 p(x|wi,θ) 或 p(x|θ)
- 不同类别的参数也是独立的,各类样本只包含本类的分布信息,这样才可以分别对每一类单独处理。每一类的参数
θi
都是独立的,这样我们就可以将
c
个类别的估计分成
c 个独立的问题来处理。
设:样本集包含了
N
个样本,即:
获得这个样本集的概率就是各个样本的联合概率:
公式(1)反应了这概率密度函数的参数是 θ 时,得到样本 χ 的概率,称作参数 θ 相对于样本集 χ 的似然函数,而乘积中的每一项 p(xi|θ) 就是 θ 相对于每一个样本的似然函数。
现在我们来看,我们从一次抽样中得到的
N
个样本,我们想要知道这组样本“最可能”来自哪个密度函数;换句话说,所抽取的样本来自哪个密度函数(
定义:令
l(θ)
是样本集
χ
的似然函数,
χ={x1,x2,…,xN}
,如果
θ^=d(χ)=d(x1,x2,…,xN)
是参数空间
Θ
中能使似然函数
l(θ)
极大化的
θ
值,则
θ^
就是
θ
的最大似然估计量,记作:
为了便于分析计算,经常对似然函数做对数,定义 对数极大似然函数:
可以证明,使对数似然函数最大的 θ 值同样也使似然函数最大。
二、最大似然估计的计算求解
(1)但
θ
是一维的,即只有一个待估计的参数,通过解下列方程即可获得
θ
的值:
(2)但 θ=[θ1,…,θs]T 是由多个未知参数组成的向量时,需要先对 θ 的每一维分别求偏导:
并令其梯度等于 0 :
或对其对数似然函数计算:
由此可以得到 s <script type="math/tex" id="MathJax-Element-20661">s</script>个方程,方程组的解就是对数似然函数的极值点。在某些情况下极值点可能会有多个,但只有使似然函数最大的解才是最大似然估计值。