似然函数与极大似然估计

一、概率与频率

  1. 频率(Frequency):指某个事件在一定时间内发生的次数与总次数之比。用符号f表示,计算公式为:f = n / N,其中n表示事件发生的次数,N表示总次数。(统计已知事件下发生的次数)

  2. 概率(Probability):是指某个事件发生的可能性大小。用符号P表示,计算公式为:P = f / F,其中f表示事件发生的频率,F表示所有可能事件的频率之和。(统计未知事件下发生的次数)

区别:

  1. 频率是一个具体的数值,而概率是一个相对的概念。
  2. 频率反映的是某个事件在实际操作中发生的次数,而概率反映的是这个事件发生的可能性大小。
  3. 频率受到实验条件的影响,而概率是一个客观的值。

联系:

  • 概率可以通过频率来计算。当实验次数足够大时,频率趋近于概率。这是因为在大量重复实验中,事件发生的频率会趋近于其真实的概率。
        

二、似然函数定义

    
    似然函数(Likelihood function)是统计学中的一个重要概念,用于估计一个统计模型中的参数。给定一组观测数据,似然函数是这些数据在特定参数值下出现的概率。似然函数通常表示为 L ( θ ∣ x ) L(\theta|x) L(θx),其中:

  • θ \theta θ是模型参数,可以是单个参数或参数向量。
  • x x x 是观测数据。

似然函数的核心思想是:

  • 对于给定的参数 θ \theta θ,计算观测数据 x x x 出现的概率。
  • 不同的参数值 θ \theta θ会得到不同的似然值,我们通常寻找使似然值最大的参数值,这个值被称为最大似然估计(MLE)。

特点:

  1. 依赖于数据:似然函数是观测数据的函数,不同的数据集会得到不同的似然函数。
  2. 参数的函数:对于给定的数据,似然函数是参数 θ \theta θ的函数。
  3. 概率的度量:似然函数衡量了在给定参数下观测数据出现的概率。
        

三、似然和概率

    
    我们可以认为,似然是模型的一个属性,如果用参数 θ \theta θ来表示这个属性, x x x表示事件,则似然可以表示为:
L ( θ ∣ x ) L(\theta|x) L(θx)
相应地,概率可以表示为:
P ( x ∣ θ ) P(x|\theta) P(xθ)
在使用同一个模型的情况下,概率和似然在数值上是相等的。
P ( x ∣ θ ) = L ( θ ∣ x ) P(x|\theta)=L(\theta|x) P(xθ)=L(θx)

注意:虽然两者在数值上相等,但是意义并不相同,似然是关于 θ \theta θ的函数,而概率是关于 x x x的函数。

四、极大似然估计

 
    通过给定的观察数据来估算模型参数的方法。通过若干次试验,观察其结果,利用这些试验结果得到某个参数值能够使得样本出现的概率为最大,就称为极大似然估计。极大似然估计中的样本有一个重要的原则,就是它们必须是独立同分布的。
设样本集为
D = { x 1 , x 2 , . . . , x N } D=\{x_{1},x_{2},...,x_{N}\} D={x1,x2,...,xN}

则联合概率密度函数 P ( D ∣ θ ) P(D| \theta) P(Dθ)成为样本集D的 θ \theta θ似然函数
l ( θ ) = P ( x 1 , x 2 , . . . , x N ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) l(\theta)=P(x_1,x_2,...,x_N | \theta) = \prod_{i=1} ^{n}P(x_i | \theta) l(θ)=P(x1,x2,...,xNθ)=i=1nP(xiθ)

如果 θ ^ \widehat\theta θ 是参数空间中是似然函数 l ( θ ) l(\theta) l(θ) 取得最大值的 θ \theta θ,则 θ ^ \widehat\theta θ 应该是最可能的值,所以它就是参数 θ \theta θ极大似然估计量

样本集不同,则 θ ^ \widehat\theta θ 的值也会不同,所以 θ ^ \widehat\theta θ 是样本集的函数,记作:
θ ^ = d ( x 1 , x 2 , . . . , x N ) = d ( D ) \widehat\theta=d(x_1,x_2,...,x_N)=d(D) θ =d(x1,x2,...,xN)=d(D)

五、极大似然估计量的计算

    
    定义了似然函数 l ( θ ) l(\theta) l(θ) 之后,如果我们能够算出使似然函数取得最大值的参数 θ \theta θ,则我们就计算出了似然的值 θ ^ \widehat\theta θ ,也就是参数 θ \theta θ 的极大似然估计量,即:
θ ^ = arg ⁡ θ max ⁡ l ( θ ) = arg ⁡ θ max ⁡ ∏ i = 1 n P ( x i ∣ θ ) \widehat\theta=\arg_\theta \max l(\theta)=\arg_\theta \max \prod_{i=1} ^{n}P(x_i | \theta) θ =argθmaxl(θ)=argθmaxi=1nP(xiθ)

由于多个函数的乘积很难计算,实践中为了便于分析和计算,定义了对数自然函数

H ( θ ) = I n ( l ( θ ) ) H(\theta)=In(l(\theta)) H(θ)=In(l(θ))

由于一个数与它的对数之间具有相同的单调性,所以求对数似然函数的最大值,也可以计算出极大似然估计量。也就是:
θ ^ = arg ⁡ θ max ⁡ H ( θ ) = arg ⁡ θ max ⁡ ∑ i = 1 N I n ( P ( x i ∣ θ ) ) \widehat\theta=\arg_\theta \max H(\theta)=\arg_\theta \max \sum_{i=1}^N In(P(x_i | \theta)) θ =argθmaxH(θ)=argθmaxi=1NIn(P(xiθ))

未知参数只有一个( θ \theta θ是标量):

在似然函数连续可微的条件下,极大似然估计量是下面方程的解:
d H ( θ ) d θ = d I n ( l ( θ ) ) d θ \frac{dH(\theta)}{d\theta}=\frac{dIn(l(\theta))}{d\theta} dθdH(θ)=dθdIn(l(θ))

未知参数有多个( θ \theta θ是向量)

θ \theta θ可表示为具有 S S S个分量的向量:
θ = [ θ 1 , θ 2 , . . . , θ S ] T \theta=[\theta_1,\theta_2,...,\theta_S]^T θ=[θ1,θ2,...,θS]T

记梯度算子: ∇ θ = [ ∂ ∂ θ 1 , ∂ ∂ θ 2 , … , ∂ ∂ θ S ] T \nabla_\theta=\left[\frac{\partial}{\partial\theta_1},\frac{\partial}{\partial\theta_2},\dots,\frac{\partial}{\partial\theta_S}\right]^T θ=[θ1θ2,,θS]T

则在似然函数连续可微的条件下,极大似然估计量是下面方程的解:
∇ θ H ( θ ) = ∇ θ I n ( l ( θ ) ) = ∑ i = 1 N I n ( P ( x i ∣ θ ) ) \nabla_\theta H(\theta)=\nabla_\theta In(l(\theta)) = \sum_{i=1}^N In(P(x_i | \theta)) θH(θ)=θIn(l(θ))=i=1NIn(P(xiθ))

注意:

在特定的数据集下,用上述方法计算出来的只是极大似然估计量的一个估计值,只有当数据集中样本数量趋于无限大时,这个估计值才能最接近真实值。

六、简单示例(估计硬币抛掷正面朝上的概率)

    
    假设我们抛掷一枚硬币若干次,每次抛掷正面朝上的概率为 p p p,反面朝上的概率为 1 − p 1−p 1p。我们想要估计 p p p 的值。假设我们进行了 n n n 次独立的抛掷,其中 k k k 次正面朝上。

步骤:

1.写出似然函数:对于二项分布,似然函数 L ( p ) L(p) L(p) 是所有成功(正面朝上)的概率和所有失败(反面朝上)的概率的乘积:

L ( p ) = p k ( 1 − p ) n − k L(p)=p^k(1-p)^{n-k} L(p)=pk(1p)nk

2. 取对数:为简化计算,取对数似然函数,令 l ( p ) = I n ( L ( p ) ) l(p)=In(L(p)) l(p)=In(L(p))
l ( p ) = I n ( p k ( 1 − p ) n − k ) l ( p ) = I n ( p k ) + I n ( 1 − p ) n − k l(p)=In(p^k(1-p)^{n-k} ) \\ l(p)=In(p^k) + In(1-p)^{n-k} l(p)=In(pk(1p)nk)l(p)=In(pk)+In(1p)nk

3. 求解导数:
d l ( p ) d p = k p − n − k 1 − p \frac{dl(p) }{dp}=\frac{k}{p} - \frac{n-k}{1-p} dpdl(p)=pk1pnk

4. 解导数等于0:将导数等于0,解得 p p p
k ( 1 − p ) = k − k p = ( n − k ) p k p + p ( n − k ) = k p ( n ) = k p = k n ​ \begin{array}{l} k(1−p)=k−kp=(n−k)p \\ kp+p(n−k)=k \\ p(n)=k \\ p= \frac{k}{n} ​\end{array} k(1p)=kkp=(nk)pkp+p(nk)=kp(n)=kp=nk
得到的 p p p 的最大似然估计值是 p = k n p= \frac{k}{n} p=nk,即正面朝上次数与总抛掷次数的比率。
    
    这个例子中,最大似然估计给出的硬币正面朝上的概率 p p p的估计值是观察到的正面朝上次数 k k k除以总抛掷次数 n n n。这是一个简单直观的例子,展示了MLE在实际问题中的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值