1. 最大似然估计定义
-
引例1
已知一个箱子里有黑白共100个球,颜色且比例为99:1,从中随机取一个球,发现是黑色,问箱子里有多少个黑球?
解,设事件 A A A表示取到黑球,事件 B B B表示取到白球,已知100个球中,颜色比例为 99 : 1 99:1 99:1,如果假设黑球有99个,则 P ( A ) = 0.99 P(A)=0.99 P(A)=0.99 如果假设黑球有 1 1 1个,则 P ( A ) = 0.01 P(A) = 0.01 P(A)=0.01, 现在我们随机取了一个球,是黑色,即事件 A A A发生,我们很直观的认为箱子中黑球应该有99个,因为有一个事实是,概率大的事件比概率小的时间更容易发生。或者说,箱子里更像是有99个黑球,这个更像就是“最大似然“的思想。
极大似然原理的直观想法是,一个随机试验如果有若干个可能的结果 A , B , C , ⋯ . A,B,C,\cdots. A,B,C,⋯. 如果在一次试验中,结果 A A A出现,则一般认为 A A A出现的概率最大,或者说在试验的很多可能条件中,认为应该是使事件 A A A发生的概率最大的条件
-
数学定义(建议跳过阅读,通过例子更好理解)
- 若总体 X X X属于离散型,其分布律 P { X = x } = p ( x ; θ ) , θ ∈ Θ P\{X=x\}=p(x;\theta),\theta \in \Theta P{X=x}=p(x;θ),θ∈Θ的形式已知, θ \theta θ为待估参数, Θ \Theta Θ是 θ \theta θ可能的取值范围。设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的样本,则 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的联合分布律为 ∏ i = 1 n p ( x i ; θ ) \prod\limits_{i=1}^np(x_i;\theta) i=1∏np(xi;θ) ,又设 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是相应于样本 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的一个样本值,很容易知道,样本 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn取到观测值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn的概率,即事件 { X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n } \{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\} {X1=x1,X2=x2,⋯,Xn=xn} 发生的概率为 L ( θ ) = L ( x 1 , x 2 , ⋯ , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod\limits_{i=1}^np(x_i;\theta),\theta \in \Theta L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏np(xi;θ),θ∈Θ这一概率随 θ \theta θ的取值而变化,它是 θ \theta θ的函数, L ( θ ) L(\theta) L(θ)称为样本的似然函数
- 若总体 X X X属于连续型,其概率密度 f ( x ; θ ) , θ ∈ Θ f(x;\theta),\theta \in \Theta f(x;θ),θ∈Θ的形式已知, θ \theta θ为待估参数, Θ \Theta Θ是 θ \theta θ可能的取值范围。设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的样本,则 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的联合分布律为 ∏ i = 1 n f ( x i ; θ ) \prod\limits_{i=1}^nf(x_i;\theta) i=1∏nf(xi;θ) ,又设 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是相应于样本 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的一个样本值,则随机点 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)落在点 ( x 1 , x 2 , ⋯ , x n ) (x_1,x_2,\cdots,x_n) (x1,x2,⋯,xn)的邻域(边长分别为 d x 1 , d x 2 , ⋯ , d x n dx_1,dx_2,\cdots,dx_n dx1,dx2,⋯,dxn的 n n n维立方体)内的概率近似地为 ∏ i = 1 n f ( x i ; θ ) d x i \prod\limits_{i=1}^nf(x_i;\theta)dx_i i=1∏nf(xi;θ)dxi 这一概率随 θ \theta θ的取值而变化,与离散型情况一样,我们取 θ \theta θ的估计值 θ ^ \hat{\theta} θ^使概率取得最大值,由于因子 ∏ i = 1 n d x i \prod\limits_{i=1}^ndx_i i=1∏ndxi不随 θ \theta θ而变,故只需考虑函数 L ( θ ) = L ( x 1 , x 2 , ⋯ , x n ; θ ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Θ L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta),\theta \in \Theta L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏nf(xi;θ),θ∈Θ的最大值,这里 L ( θ ) L(\theta) L(θ)称为样本的似然函数
- 若 L ( θ ) = L ( x 1 , x 2 , ⋯ , x n ; θ ^ ) = max θ ∈ Θ ∏ i = 1 n f ( x i ; θ ) L(\theta)=L(x_1,x_2,\cdots,x_n;\hat{\theta})=\max\limits_{\theta \in \Theta} \prod\limits_{i=1}^nf(x_i;\theta) L(θ)=L(x1,x2,⋯,xn;θ^)=θ∈Θmaxi=1∏nf(xi;θ) 则称 θ ^ ( x 1 , x 2 , ⋯ , x n ) \hat{\theta}(x_1,x_2,\cdots,x_n) θ^(x1,x2,⋯,xn)为 θ \theta θ的最大似然估计值,称 θ ^ ( X 1 , X 2 , ⋯ , X n ) \hat{\theta}(X_1,X_2,\cdots,X_n) θ^(X1,X2,⋯,Xn)为 θ \theta θ的最大似然估计量
- 很多情况下, p ( x ; θ ) p(x;\theta) p(x;θ)和 f ( x ; θ ) f(x;\theta) f(x;θ)关于 θ \theta θ可微,这时 θ ^ \hat{\theta} θ^常从方程 d d θ L ( θ ) = 0 \frac{d}{d\theta}L(\theta)=0 dθdL(θ)=0 解得。由于 l n x lnx lnx为增函数,因此 L ( θ ) L(\theta) L(θ)与 l n L ( θ ) lnL(\theta) lnL(θ)在同一个 θ \theta θ处取到极值,因此 θ \theta θ的最大似然估计可以从方程 d d θ l n L ( θ ) = 0 \frac{d}{d\theta}lnL(\theta)=0 dθdlnL(θ)=0 求得,该方程被称为对数似然方程
2. 解最大似然估计值
最大似然估计的计算步骤很简单,用例子加以解释和说明
-
例1
总体 X ∼ π ( λ ) X\sim \pi(\lambda) X∼π(λ) , x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是来自总体的一个样本值,试求 λ \lambda λ的最大似然估计
解:
-
写出总体的分布律或者密度函数
P { X = k } = λ k k ! e − λ P\{X=k\} = \frac{\lambda^k}{k!}e^{-\lambda} P{X=k}=k!λke−λ
-
写出似然函数
L ( λ ) = ∏ k = 1 n λ x k x k ! e − λ L(\lambda) = \prod\limits_{k=1}^n\frac{\lambda^{x_k}}{x_k!}e^{-\lambda} L(λ)=k=1∏nxk!λxke−λ
-
两边同时取 l n ln ln
l n L ( λ ) = l n ∏ k = 1 n λ x k x k ! e − λ = ∑ k = 1 n l n λ x k + ∑ k = 1 n l n 1 x k ! + ∑ k = 1 n l n e − λ = l n λ ∑ k = 1 n x k − ∑ k = 1 n l n x k ! − n λ \begin{aligned} lnL(\lambda) &= ln\prod\limits_{k=1}^n\frac{\lambda^{x_k}}{x_k!}e^{-\lambda} \\&= \sum\limits_{k=1}^nln\lambda^{x_k}+\sum\limits_{k=1}^nln\frac{1}{x_k!}+\sum\limits_{k=1}^nlne^{-\lambda} \\&= ln\lambda\sum\limits_{k=1}^nx_k - \sum\limits_{k=1}^nln{x_k!} -n\lambda \end{aligned} lnL(λ)=lnk=1∏nxk!λxke−λ=k=1∑nlnλxk+k=1∑nlnxk!1+k=1∑nlne−λ=lnλk=1∑nxk−k=1∑nlnxk!−nλ
-
写出对数似然方程
d d λ l n L ( λ ) = 1 λ ∑ k = 1 n x k − n = 0 \begin{aligned}\frac{d}{d\lambda}lnL(\lambda)= \frac{1}{\lambda}\sum\limits_{k=1}^nx_k -n = 0 \end{aligned} dλdlnL(λ)=λ1k=1∑nxk−n=0
-
解出参数值
λ = 1 n ∑ k = 1 n x k = X ‾ \lambda = \frac{1}{n}\sum\limits_{k=1}^nx_k = \overline{X} λ=n1k=1∑nxk=X
该估计值和矩估计的值保持一致
-
-
例2
总体 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2) , x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是来自总体的一个样本值,试求 μ , σ 2 \mu,\sigma^2 μ,σ2的最大似然估计
解:
-
写出总体的分布律或者密度函数
f ( x ; μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x;μ,σ2)=2πσ1e−2σ2(x−μ)2
-
写出似然函数
L ( μ , σ 2 ) = ∏ k = 1 n 1 2 π σ e − ( x k − μ ) 2 2 σ 2 L(\mu,\sigma^2) = \prod\limits_{k=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_k-\mu)^2}{2\sigma^2}} L(μ,σ2)=k=1∏n2πσ1e−2σ2(xk−μ)2
-
两边同时取 l n ln ln
l n L ( μ , σ 2 ) = l n ∏ k = 1 n 1 2 π σ e − ( x k − μ ) 2 2 σ 2 = ∑ k = 1 n l n 1 2 π − 1 2 ∑ k = 1 n l n σ 2 − ∑ k = 1 n ( x k − μ ) 2 2 σ 2 = n l n 1 2 π − n 2 l n σ 2 − ∑ k = 1 n ( x k − μ ) 2 2 σ 2 \begin{aligned} lnL(\mu,\sigma^2) &= ln\prod\limits_{k=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_k-\mu)^2}{2\sigma^2}} \\&= \sum\limits_{k=1}^nln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum\limits_{k=1}^nln{\sigma^2}-\sum\limits_{k=1}^n\frac{(x_k-\mu)^2}{2\sigma^2} \\&= nln\frac{1}{\sqrt{2\pi}} -\frac{n}{2}ln{\sigma^2}-\sum\limits_{k=1}^n\frac{(x_k-\mu)^2}{2\sigma^2} \end{aligned} lnL(μ,σ2)=lnk=1∏n2πσ1e−2σ2(xk−μ)2=k=1∑nln2π1−21k=1∑nlnσ2−k=1∑n2σ2(xk−μ)2=nln2π1−2nlnσ2−k=1∑n2σ2(xk−μ)2
-
写出对数似然方程,这里有多个参数,则似然方程组为
{ ∂ l n L ( μ , σ 2 ) ∂ μ = 1 σ 2 ∑ k = 1 n ( x k − μ ) = 0 ∂ l n L ( μ , σ 2 ) ∂ σ 2 = − n 2 σ 2 + ∑ k = 1 n ( x k − μ ) 2 2 σ 4 = 0 \begin{cases}\frac{\partial lnL(\mu,\sigma^2)}{\partial\mu} = \frac{1}{\sigma^2}\sum\limits_{k=1}^n(x_k-\mu) = 0 \\ \frac{\partial lnL(\mu,\sigma^2)}{\partial\sigma^2} = -\frac{n}{2\sigma^2}+\frac{\sum\limits_{k=1}^n(x_k-\mu)^2}{2\sigma^4} = 0 \end{cases} ⎩⎪⎪⎨⎪⎪⎧∂μ∂lnL(μ,σ2)=σ21k=1∑n(xk−μ)=0∂σ2∂lnL(μ,σ2)=−2σ2n+2σ4k=1∑n(xk−μ)2=0
-
解出参数值
μ = 1 n ∑ k = 1 n x k = X ‾ \mu = \frac{1}{n}\sum\limits_{k=1}^nx_k = \overline{X} μ=n1k=1∑nxk=X
σ 2 = 1 n ∑ k = 1 n ( x k − μ ) 2 = X ‾ \sigma^2 = \frac{1}{n}\sum\limits_{k=1}^n(x_k-\mu)^2 = \overline{X} σ2=n1k=1∑n(xk−μ)2=X
该估计值和矩估计的值保持一致
-