3.2_最大似然估计

类条件概率 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(xωi)又称似然概率,

对于最大似然估计,有基本假设:

  1. 要估计的参数 θ \theta θ,是确定的但未知的量(不是随机量);
  2. 每类的样本集记作 K i i = 1 , 2 , … , c K_i\quad i=1,2,\dots, c Kii=1,2,,c,其中的样本都是从概率密度为 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(xωi)的总体中独立抽取出来的,即满足独立同分布,i.i.d;
  3. 概率密度函数的形式已知,参数未知。为了描述概率密度函数 P ( x ∣ ω i ) P(\mathbf{x}|\omega_i) P(xωi)与参数 θ \theta θ的依赖关系,用 P ( x ∣ ω i , θ ) P(\mathbf{x}|\omega_i, \theta) P(xωi,θ)来表示,对于同一类别可简化为 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(xθ);
  4. 各类样本只包含本类的分布信息,也就是说,不同类别的参数是独立的,这样就可以分别对每一类单独处理。

在这些假设的前提下,我们就可以分别处理c个独立的问题,即在一类中独立地按照概率密度 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(xθ)抽取样本集 K K K,用 K K K来估计出未知参数 θ \theta θ

这样样本集包含N个样本,即
K = { x 1 , x 2 , … , x N } , x i 是 d 维向量 (1) K=\{\mathbf{x}_1,\mathbf{x}_2,\dots, \mathbf{x}_N\}, \quad \mathbf{x}_i是d维向量 \tag{1} K={x1,x2,,xN},xid维向量(1)

由于样本是独立地从 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(xθ)中抽取的,所以在概率密度为 P ( x ∣ θ ) P(\mathbf{x}|\theta) P(xθ)时,获得样本集 K K K的概率,即出现 K K K中各个样本的联合概率是:
L ( θ ) = P ( K ∣ θ ) = P ( x 1 , x 2 , … , x N ∣ θ ) = ∏ i = 1 N P ( x i ∣ θ ) (2) L(\theta) = P(K|\theta) = P(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N|\theta)=\prod_{i=1}^N P(\mathbf{x}_i|\theta) \tag{2} L(θ)=P(Kθ)=P(x1,x2,,xNθ)=i=1NP(xiθ)(2)

这个式子反映了在概率密度函数的参数是 θ \theta θ时,得到上式中这组样本的概率。
式(2)为 θ \theta θ的函数,它反映的是在不同参数取值下取得当前样本集的可能性,我们希望这个可能性最大时,确定 θ \theta θ的值。

总之,似然函数 L ( θ ) L(\theta) L(θ)给出了从该类总体中抽出 x 1 , x 2 , … , x N \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N x1,x2,,xN这样N个样本的概率。一般来说,使得这个概率最大的 θ \theta θ是我们需要的最大似然估计量。其具体的定义为:

  • L ( θ ) L(\theta) L(θ)为样本集 K K K的似然函数, K = { x 1 , x 2 , … , x N } K=\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N\} K={x1,x2,,xN},如果 θ ^ = d ( x 1 , x 2 , … , x N ) \hat{\theta}=d(\mathbf{x}_1, \mathbf{x}_2,\dots, \mathbf{x}_N) θ^=d(x1,x2,,xN)是参数空间 Θ {\Theta} Θ中能使似然函数 L ( θ ) L(\theta) L(θ)极大化的 θ \theta θ值,那么 θ ^ \hat{\theta} θ^就是 θ \theta θ的最大似然估计量,记作:
    θ ^ = arg max ⁡ L ( θ ) (3) \hat{\theta} = \argmax L(\theta)\tag{3} θ^=argmaxL(θ)(3)

定义对数似然函数:
H ( θ ) = ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 N P ( x i ∣ θ ) = ∑ i = 1 N ln ⁡ P ( x i ∣ θ ) (4) H(\theta) = \ln L(\theta) = \ln \prod_{i=1}^N P(\mathbf{x}_i|\theta) = \sum_{i=1}^N\ln P(\mathbf{x}_i|\theta) \tag{4} H(θ)=lnL(θ)=lni=1NP(xiθ)=i=1NlnP(xiθ)(4)

2. 最大似然估计的求解

  1. θ \theta θ是一维, 则 arg max ⁡ L ( θ ) \argmax L(\theta) argmaxL(θ)就是 L ′ ( θ ) = 0 L'(\theta)=0 L(θ)=0对应驻点处,即 d L ( θ ) d θ = 0 \frac{dL(\theta)}{d\theta}=0 dθdL(θ)=0的解,

  2. θ = [ θ 1 , θ 2 , … , θ s ] \mathbf{\theta}=[\theta_1, \theta_2, \dots, \theta_s] θ=[θ1,θ2,,θs]为多维向量时,求解其最大值就需要对 θ \mathbf{\theta} θ的每一维求偏导,即用下面的梯度算子:
    ∇ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ s ] T (5) \nabla_\theta = [\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2}, \dots, \frac{\partial}{\partial\theta_s}]^T \tag{5} θ=[θ1,θ2,,θs]T(5)
    对似然函数求偏导,有多少个参数求多少个偏导,并令其等于0,最后求出驻点。

  3. 并不是所有的概率密度都用上述方法求最值,假设一维随机变量x服从均匀分布:
    P ( x ∣ θ ) = { 1 θ 2 − θ 1 , θ 1 < x < θ 2 0 , e l s e (6) P(x|\theta) = \begin{cases}\frac{1}{\theta_2-\theta_1}, \theta_1 <x<\theta_2 \\ 0,\quad else \end{cases}\tag{6} P(xθ)={θ2θ11,θ1<x<θ20,else(6)
    其中分布的参数 θ 1 , θ 2 \theta_1, \theta_2 θ1,θ2未知,从总体分布中独立抽取了N个样本 x 1 , x 2 , … , x N x_1, x_2, \dots, x_N x1,x2,,xN, 则似然函数为:
    P ( x ∣ θ ) = { P ( x 1 , x 2 , … , x N ∣ θ 1 , θ 2 ) = 1 ( θ 2 − θ 1 ) N , x ∈ ( θ 1 , θ 2 ) 0 , e l s e (7) P(x|\theta) = \begin{cases}P(x_1, x_2, \dots, x_N|\theta_1, \theta_2)=\frac{1}{(\theta_2-\theta_1)^N}, x\in(\theta_1, \theta_2) \\ 0,\quad \quad \quad else\end{cases} \tag{7} P(xθ)={P(x1,x2,,xNθ1,θ2)=(θ2θ1)N1,x(θ1,θ2)0,else(7)
    对数似然函数为:
    H ( θ ) = − N ln ⁡ ( θ 2 − θ 1 ) (8) H(\theta) = -N\ln(\theta_2-\theta_1) \tag{8} H(θ)=Nln(θ2θ1)(8)
    若按照求导=0求极值,则有:
    ∂ H ∂ θ 1 = N 1 θ 2 − θ 1 = 0 , ∂ H ∂ θ 2 = − N 1 θ 2 − θ 1 = 0 (9) \frac{\partial{H}}{\partial{\theta}_1}=N\frac{1}{\theta_2-\theta_1}=0, \quad \frac{\partial{H}}{\partial{\theta}_2}=-N\frac{1}{\theta_2-\theta_1}=0 \tag{9} θ1H=Nθ2θ11=0,θ2H=Nθ2θ11=0(9)
    要使上式为0,则 θ 2 − θ 1 → ∞ \theta_2-\theta_1 \rightarrow \infin θ2θ1至少一个参数为无穷大,这是无意义的,无法确定 θ ^ \hat{\theta} θ^。这个时候从原式出发 L ( θ ) = 1 ( θ 2 − θ 1 ) N L(\theta)=\frac{1}{(\theta_2-\theta_1)^N} L(θ)=(θ2θ1)N1,要使其最大化,则 θ 2 − θ 1 \theta_2-\theta_1 θ2θ1要尽可能小,这意味着随机变量的取值区间要越小。同时这个区间还必须包含所有的观察值,则 θ 1 \theta_1 θ1应该取样本中最小的观察值, θ 2 \theta_2 θ2应该取样本中最大的观察值,使得均匀分布的区间尽可能的覆盖所有观察值。

  • 25
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值