极大似然法估计

h i t 2015 s p r i n g 晨凫追风 \frac{hit2015spring}{晨凫追风} 晨凫追风hit2015spring

欢迎关注我的博客:http://blog.csdn.NET/hit2015spring

举个例子:
张无忌和宋青书分别给周芷若送一个糖果,周芷若最后只接受一个糖果,问周芷若接受了谁的糖果。大部分的人肯定会说,当然是张无忌了。
这里面就蕴含了极大似然的思想。因为周芷若接受张无忌的概率大于宋青书呀,而故事的最后周芷若接受了一颗糖果这个事实发生了,所以我们自然选择发生概率大的那个了。

一个函数总体的分布是 f ( x ; θ 1 , θ 2 , ⋯   , θ k ) f(x;\theta_1,\theta_2,\cdots,\theta_k) f(x;θ1,θ2,,θk)。样本 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn是从总体中抽出的样本,这些样本独立同分布(是极大似然的前提条件),则这些样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)服从的分布就是:
f ( x 1 ; θ 1 , θ 2 , ⋯   , θ k ) f ( x 2 ; θ 1 , θ 2 , ⋯   , θ k ) ⋯ f ( x n ; θ 1 , θ 2 , ⋯   , θ k ) f(x_1;\theta_1,\theta_2,\cdots,\theta_k)f(x_2;\theta_1,\theta_2,\cdots,\theta_k)\cdots f(x_n;\theta_1,\theta_2,\cdots,\theta_k) f(x1;θ1,θ2,,θk)f(x2;θ1,θ2,,θk)f(xn;θ1,θ2,,θk)
因为独立同分布,所以可以乘。把上面函数记为 L ( x 1 , ⋯   , x n ; θ 1 , ⋯   , θ k ) L(x_1,\cdots,x_n;\theta_1,\cdots,\theta_k) L(x1,,xn;θ1,,θk)

1 ∘ 1^\circ 1当我们固定 θ 1 , ⋯   , θ k \theta_1,\cdots,\theta_k θ1,,θk时,看做是 x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn的函数, L L L是一个概率密度函数或者概率函数。

这样理解:若 L ( X 1 , ⋯   , X n ; θ 1 , ⋯   , θ k ) < L ( Y 1 , ⋯   , Y n ; θ 1 , ⋯   , θ k ) L(X_1,\cdots,X_n;\theta_1,\cdots,\theta_k) < L(Y_1,\cdots,Y_n;\theta_1,\cdots,\theta_k) L(X1,,Xn;θ1,,θk)<L(Y1,,Yn;θ1,,θk),则我们可以认为 ( Y 1 , ⋯   , Y n ) (Y_1,\cdots,Y_n) (Y1,,Yn)这个点出现的可能性要大于 ( X 1 , ⋯   , X n ) (X_1,\cdots,X_n) (X1,,Xn)这些点出现的概率。

2 ∘ 2^\circ 2当我们固定 x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn时, L ( X 1 , ⋯   , X n ; θ 1 , ⋯   , θ k ) L(X_1,\cdots,X_n;\theta_1,\cdots,\theta_k) L(X1,,Xn;θ1,,θk)看做是 θ 1 , ⋯   , θ k \theta_1,\cdots,\theta_k θ1,,θk的函数, L L L是一个似然估计,这个函数在一个固定的观察结果 x 1 , ⋯   , x n x_1,\cdots,x_n x1,,xn的取值下,参数值 θ 1 , ⋯   , θ k \theta_1,\cdots,\theta_k θ1,,θk可以看成是导致这个结果出现的原因,因为出现了周芷若接受糖果的事了,所以我们就让这件事情发生的概率最大,所以就叫张无忌去送糖果。张无忌就是那个 θ ⃗ 1 , ⋯   , θ ⃗ k \vec\theta_1,\cdots,\vec\theta_k θ 1,,θ k。当然这里面的 θ 1 , ⋯   , θ k \theta_1,\cdots,\theta_k θ1,,θk是有一定的值的(并不是任何值都可以),并不是随便一个人送糖果都可以的对吧。这里还包含了贝叶斯学派和频率主义学派两家的观点问题。频率主义学派认为参数是虽然是未知的,但是它是一个客观存在的固定值,因此可以通过优化似然函数等一些准则来确定参数值;但是贝叶斯学派认为参数是未观察到的随机变量,其本身也可以有分布,因此可以假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。上面的估计方法就是传统的频率主义学派所认为的观点,就是一个事件的概率分布参数是存在的,我们需要优化似然函数这样的函数来求解得到参数。既然能发生,说明它出现的概率就是大,就像能考到清北的孩子优秀的概率肯定大于一般高校的孩子(一般这样认为)。
所以我们就去求当满足取样值的条件下,似然函数最大的那个参数就ok即:

L ( X 1 , ⋯   , X n ; θ 1 ∗ , ⋯   , θ k ∗ ) = max ⁡ θ 1 , ⋯   , θ k L ( Y 1 , ⋯   , Y n ; θ 1 , ⋯   , θ k ) L(X_1,\cdots,X_n;\theta_1^*,\cdots,\theta_k^*) = \max\limits_{\theta_1,\cdots,\theta_k} L(Y_1,\cdots,Y_n;\theta_1,\cdots,\theta_k) L(X1,,Xn;θ1,,θk)=θ1,,θkmaxL(Y1,,Yn;θ1,,θk)

即选择使得似然条件最大的参数作为原始参数的估计值。当然为了使得似然函数计算和不至于上溢,选择对原始似然函数去对数,叫做对数似然,于是就是优化下面的函数

ln ⁡ L = ∑ i = 1 n ln ⁡ f ( X i ; θ 1 , ⋯   , θ k ) \ln L=\sum\limits_{i=1}^n \ln f(X_i;\theta_1,\cdots , \theta_k) lnL=i=1nlnf(Xi;θ1,,θk)

为了使得 L L L达到最大,只需对 ln ⁡ L \ln L lnL取偏导,就可以建立方程组:

∂ ln ⁡ L ∂ θ i = 0 \frac{\partial \ln L}{\partial \theta_i}=0 θilnL=0

这里写图片描述

这里写图片描述

AI 图像助理

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值