最大似然估计

给定一个概率分布 D D D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f D f_D fD,以及一个分布参数 θ \theta θ,我们可以从这个分布中进行 n n n次采样:
P ( x 1 , x 2 , ⋅ ⋅ ⋅ , x n ) = f D ( x 1 , ⋅ ⋅ ⋅ , x n ∣ θ ) P(x_1,x_2,···,x_n)=f_D(x_1,···,x_n|\theta) P(x1,x2,,xn)=fD(x1,xnθ)
但是,我们可能不知道 θ \theta θ的取值,这时我们可以通过上面的 n n n次采样估算出 θ \theta θ

用一个例子来说明:
假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,可以采用最大似然估计法求解袋子中白球的比例(最大似然估计是一种“模型已定,参数未知”的方法)。当然,这种数据情况下很明显,白球的比例是70%,但如何通过理论的方法得到这个答案呢?一些复杂的条件下,是很难通过直观的方式获得答案的,这时候理论分析就尤为重要了,这也是学者们为何要提出最大似然估计的原因。我们可以定义从袋子中抽取白球和红球的概率如下:
f ( x 1 , x 2 ∣ θ ) = f ( x 1 ∣ θ ) ∗ f ( x 2 ∣ θ ) f(x_1,x_2|\theta)=f(x_1|\theta)*f(x_2|\theta) f(x1,x2θ)=f(x1θ)f(x2θ)
x 1 x_1 x1为第一次采样, x 2 x_2 x2为第二次采样, f f f为模型, θ \theta θ为模型参数
其中 θ \theta θ是未知的,因此,参数 θ \theta θ的定义为:
L ( θ ∣ x 1 , x 2 ) = f ( x 1 , x 2 ∣ θ ) = ∏ i = 1 2 f ( x i ∣ θ ) L(\theta|x_1,x_2)=f(x_1,x_2|\theta)= \prod_{i=1}^2 f(x_i|\theta) L(θx1,x2)=f(x1,x2θ)=i=12f(xiθ)
两边取ln,取ln是为了将右边的乘号变为加号,方便求导
l n L ( θ ∣ x 1 , x 2 ) = l n ∑ i = 1 2 f ( x i ∣ θ ) = ∑ i = 1 2 l n f ( x i ∣ θ ) lnL(\theta|x_1,x_2)=ln\sum_{i=1}^2 f(x_i|\theta)=\sum_{i=1}^2lnf(x_i|\theta) lnL(θx1,x2)=lni=12f(xiθ)=i=12lnf(xiθ)
然后平均对数似然
ϑ ^ = 1 2 l n L ( θ ∣ x 1 , x 2 ) \widehat{\vartheta}=\frac{1}{2}lnL(\theta|x_1,x_2) ϑ =21lnL(θx1,x2)
最大似然估计的过程,就是找一个合适的 θ \theta θ,使得平均对数似然的值为最大。因此,可以得到以下公式:
θ ^ m l e = a r g m a x ϑ ^ ( θ ∣ x 1 , x 2 ) \widehat{\theta}_{mle}=argmax\widehat{\vartheta}(\theta|x_1,x_2) θ mle=argmaxϑ (θx1,x2)
这里讨论的是2次采样的情况,当然也可以拓展到多次采样的情况:
θ ^ m l e = a r g m a x ϑ ^ ( θ ∣ x 1 , x 2 , ⋅ ⋅ ⋅ , x n ) \widehat{\theta}_{mle}=argmax\widehat{\vartheta}(\theta|x_1,x_2,···,x_n) θ mle=argmaxϑ (θx1,x2xn)
我们定义M为模型(也就是之前公式中的f),表示抽到白球的概率为 θ \theta θ,而抽到红球的概率为( 1 − θ 1-\theta 1θ),因此10次抽取抽到白球7次的概率可以表示为:
P ( x 1 , x 2 , ⋅ ⋅ ⋅ , x 10 ∣ M ) = P ( x 1 ∣ M ) ⋅ ⋅ ⋅ × P ( x 10 ∣ M ) = θ 7 ( 1 − θ ) 3 P(x_1,x_2,···,x_{10}|M)=P(x_1|M)···\times P(x_{10}|M)=\theta^{7}(1-\theta)^3 P(x1,x2,x10M)=P(x1M)×P(x10M)=θ7(1θ)3
将其描述为平均似然可得:
ϑ ^ = 1 10 l n P ( x 1 , x 2 ⋅ ⋅ ⋅ x 10 ∣ M ) = 1 10 l n [ θ 7 ( 1 − θ ) 3 ] \widehat{\vartheta}=\frac{1}{10}lnP(x_1,x_2···x_{10}|M)=\frac{1}{10}ln[\theta^7(1-\theta)^3] ϑ =101lnP(x1,x2x10M)=101ln[θ7(1θ)3]
然后对 θ \theta θ进行求导,另导数等于0
ϑ ^ = 7 θ 6 ( 1 − θ ) 3 − 3 θ 7 ( 1 − θ ) 2 = 0 \widehat{\vartheta}=7\theta^6(1-\theta)^3-3\theta^7(1-\theta)^2=0 ϑ =7θ6(1θ)33θ7(1θ)2=0
得到 θ \theta θ=0.7

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值