(二) 极大似然估计法
-
本质:这是在总体类型已知条件下使用的一种参数估计方法
-
引入问题:同学和猎人外出打猎,突然一只野兔出现,砰的一声,野兔被枪击倒,你猜是谁将野兔打倒的呢?
答:猎人击倒野兔的可能性大,因此应该是猎人打倒的
-
基本思想:选择一个参数使得实验结果具有最大概率。
-
原理:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为 f ( X 1 , X 2 , . . . , X n ; θ ) f(X_1,X_2,...,X_n;\theta) f(X1,X2,...,Xn;θ)。
当给定样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn时,定义似然函数为:
L ( θ ) = f ( X 1 , X 2 , . . . , X n ; θ ) L(\theta)=f(X_1,X_2,...,X_n;\theta) L(θ)=f(X1,X2,...,Xn;θ)
L ( θ ) L(\theta) L(θ)看作参数 θ \theta θ的函数,它可作为 θ \theta θ将以多大可能产生样本值 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn的一种度量。极大似然估计法就是用使 L ( θ ) L(\theta) L(θ)达到最大值的 θ ^ \hat \theta θ^去估计 θ \theta θ.
L ( θ ^ ) = m a x θ L ( θ ) L(\hat \theta)=max_{\theta}L(\theta) L(θ^)=maxθL(θ)
称 θ ^ \hat \theta θ^为 θ \theta θ的极大似然估计(Maximum Likelihood Estimation) -
极大似然估计(MLE)的一般步骤:
(1)由总体分布导出样本的联合概率函数(或联合密度);
(2)把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta θ看作自变量,得到似然函数 L ( θ ) L(\theta) L(θ);
(3)求似然函数 L ( θ ) L(\theta) L(θ)的最大值点(常常转化为求 l n L ( θ ) lnL(\theta) lnL(θ)的最大值点),即 θ \theta θ的MLE;
(4)在最大值点的表达式中,用样本值带入就得参数的极大似然估计值
注意:
(1)求似然函数 L ( θ ) L(\theta) L(θ)的最大值点,可以应用微积分中的技巧。由于 l n ( x ) ln(x) ln(x)是 x x x的增函数, l n L ( θ ) lnL(\theta) lnL(θ)与 L ( θ ) L(\theta) L(θ)在 θ \theta θ的同一值处达到它的最大值,假定 θ \theta θ是一实数,且 l n L ( θ ) lnL(\theta) lnL(θ)是 θ \theta θ的一个可微函数。通过求解所谓的”似然方程“:
d l n L ( θ ) d θ = 0 \frac{dlnL(\theta)}{d\theta}=0 dθdlnL(θ)=0
可以得到 θ \theta θ的MLE。若 θ \theta θ是向量,上述方程必须用似然方程组代替。
(2)用上述求导方法求参数的MLE有时行不通,这时要用极大似然原则(使似然函数 L ( θ ) L(\theta) L(θ)值最大)来求
-
e.g 以联合概率函数为例
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体 X X X~ B ( 1 , p ) B(1,p) B(1,p)的一个样本,求参数p的极大似然估计
第一步:由总体分布导出样本概率函数;
总体的分布: X X X~ B ( 1 , p ) → P ( X = x ) = p x ( 1 − p ) 1 − x x = 0 , 1 B(1,p) \quad \to \quad P(X=x)=p^x(1-p)^{1-x} \quad x=0,1 B(1,p)→P(X=x)=px(1−p)1−xx=0,1
于是,样本的联合分布为:
P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) , . . . , P ( X n = x n ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2),...,P(X_n=x_n) P(X1=x1,X2=x2,...,Xn=xn)=P(X1=x1)P(X2=x2),...,P(Xn=xn)
= ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i =\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} =∏i=1npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi
第二步:把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta θ看作自变量,得到似然函数 L ( θ ) L(\theta) L(θ);
似然函数为:
L ( p ) = f ( X 1 , X 2 , . . . , X n ; p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i = p ∑ i = 1 n x i ( 1 − p ) n − ∑ i = 1 n x i L(p)=f(X_1,X_2,...,X_n;p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} L(p)=f(X1,X2,...,Xn;p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi
第三步:求似然函数 L ( θ ) L(\theta) L(θ)的最大值点(常常转化为 l n L ( θ ) lnL(\theta) lnL(θ)的最大值点),即 θ \theta θ的MLE;对数似然函数为:
l n L ( p ) = ∑ i = 1 n x i l n ( p ) + ( n − ∑ i = 1 n x i ) l n ( 1 − p ) lnL(p)=\sum^n_{i=1}x_iln(p)+(n-\sum_{i=1}^nx_i)ln(1-p) lnL(p)=i=1∑nxiln(p)+(n−i=1∑nxi)ln(1−p)
对p求导并令其为0,得
d l n L ( p ) d p = 1 p ∑ i = 1 n x i − 1 1 − p ( n − ∑ i = 1 n x i ) = 0 ∴ p = 1 n ∑ i = 1 n x i = x ‾ \frac{dlnL(p)}{dp}=\frac{1}{p}\sum_{i=1}^nx_i-\frac{1}{1-p}(n-\sum_{i=1}^nx_i)=0 \\ \therefore p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x dpdlnL(p)=p1i=1∑nxi−1−p1(n−i=1∑nxi)=0∴p=n1i=1∑nxi=x
第四步:在最大值点的表达式中,用样本值代入就得参数的极大似然估计值;得 p ^ = 1 n ∑ i = 1 n x i = x ‾ \hat p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x p^=n1∑i=1nxi=x,即为p的MLE。
于是,p的极大似然估计量为 p ^ = 1 n ∑ i = 1 n X i = X ‾ \hat p=\frac{1}{n}\sum_{i=1}^nX_i=\overline X p^=n1∑i=1nXi=X
这一估计量与矩估计量是相同的。
-
e.g 以联合密度函数为例
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自总体X的一个样本
X X X~ f ( x ) = { θ x θ − 1 , 0 < x < 1 0 , 其 它 f(x)=\begin{cases} \theta x^{\theta -1} , \quad 0<x<1 \\ 0, \quad 其它 \end{cases} f(x)={θxθ−1,0<x<10,其它
其中 θ > 0 \theta >0 θ>0,求 θ \theta θ的极大似然估计。
似然函数为
L ( θ ) = ∏ i = 1 n θ x i θ − 1 = θ n ( ∏ i = 1 n x i ) θ − 1 ( 0 < x i < 1 , 1 ≤ i ≤ n ) L(\theta)=\prod_{i=1}^n\theta x_i^{\theta -1}=\theta^n(\prod_{i=1}^nx_i)^{\theta-1} \quad \quad (0<x_i<1, 1\leq i\leq n) L(θ)=i=1∏nθxiθ−1=θn(i=1∏nxi)θ−1(0<xi<1,1≤i≤n)
对数似然函数为
l n L ( θ ) = n l n θ + ( θ − 1 ) ∑ i = 1 n l n x i lnL(\theta)=nln\theta+(\theta-1)\sum^n_{i=1}lnx_i lnL(θ)=nlnθ+(θ−1)i=1∑nlnxi
求导并令其为0
d l n L ( θ ) d θ = n θ + ∑ i = 1 n l n x i = 0 \frac{dlnL(\theta)}{d\theta}=\frac{n}{\theta}+\sum_{i=1}^nlnx_i=0 dθdlnL(θ)=θn+i=1∑nlnxi=0
解得
θ ^ = − n ∑ i = 1 n l n x i \hat \theta=-\frac{n}{\sum_{i=1}^nlnx_i} θ^=−∑i=1nlnxin
即为 θ \theta θ的MLE -
e.g 以极大似然原则为例
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn取自总体X的一个样本
X X X~ f ( x ) = { 1 θ e − ( x − μ ) / θ , x ≥ μ 0 , 其 它 f(x)=\begin{cases} \frac{1}{\theta}e^{-(x-\mu)/\theta}, \quad x\geq \mu \\ 0,\quad 其它 \end{cases} f(x)={θ1e−(x−μ)/θ,x≥μ0,其它
θ , μ \theta,\mu θ,μ为未知参数,其中 θ > 0 \theta>0 θ>0,求 θ , μ \theta,\mu θ,μ的极大似然估计
解:似然函数为
L ( θ , μ ) = { ∏ i = 1 n 1 θ e − ( x i − μ ) / θ x i ≥ μ , i = 1 , 2 , . . . , n 0 , 其 它 = { 1 θ n e − 1 θ ∑ i = 1 n ( x i − μ ) , m i n x i ≥ μ 0 , 其 它 L(\theta,\mu)=\begin{cases}\prod_{i=1}^n\frac{1}{\theta}e^{-(x_i-\mu)/\theta} & x_i\geq \mu,i=1,2,...,n \\0, & 其它\end{cases}\\=\begin{cases}\frac{1}{\theta^n}e^{-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)}, & min\space x_i\geq \mu \\0, & 其它\end{cases} L(θ,μ)={∏i=1nθ1e−(xi−μ)/θ0,xi≥μ,i=1,2,...,n其它={θn1e−θ1∑i=1n(xi−μ),0,min xi≥μ其它对数似然函数为:
l n L ( θ , μ ) = − n l n θ − 1 θ ∑ i = 1 n ( x i − μ ) lnL(\theta,\mu)=-nln\theta-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu) lnL(θ,μ)=−nlnθ−θ1i=1∑n(xi−μ)
对 θ , μ \theta,\mu θ,μ分别求偏导并令其为0,
∂ l n L ( θ , μ ) ∂ θ = − n θ + 1 θ 2 ∑ i = 1 n ( x i − μ ) = 0 (1) \frac{\partial lnL(\theta,\mu)}{\partial \theta}=-\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}^n(x_i-\mu)=0 \tag{1} ∂θ∂lnL(θ,μ)=−θn+θ21i=1∑n(xi−μ)=0(1)∂ l n L ( θ , μ ) ∂ μ = n θ = 0 (2) \frac{\partial lnL(\theta,\mu)}{\partial \mu}=\frac{n}{\theta}=0 \tag{2} ∂μ∂lnL(θ,μ)=θn=0(2)
由(1)得: θ = 1 n ∑ i = 1 n x i − μ \theta=\frac{1}{n}\sum_{i=1}^nx_i-\mu θ=n1∑i=1nxi−μ
由(2)得:无解! n θ > 0 \frac{n}{\theta}>0 θn>0恒成立
用求导方法无法最终确定 θ 、 μ \theta、\mu θ、μ,用极大似然原则来求。
对 m i n x i ≥ μ , L ( θ , μ ) > 0 min\space x_i\geq \mu,L(\theta,\mu)>0 min xi≥μ,L(θ,μ)>0,且是 μ \mu μ的增函数
故要使 L ( θ , μ ) L(\theta,\mu) L(θ,μ)达到最大,则 μ = m i n x i \mu=min\space x_i μ=min xi,即 μ \mu μ的MLE
根据定义域,有 μ ∗ = m i n 1 ≤ i ≤ n x i \mu^*=min_{1\leq i\leq n}x_i μ∗=min1≤i≤nxi,即 θ ∗ , μ ∗ \theta^*,\mu^* θ∗,μ∗为 θ , μ \theta,\mu θ,μ的MLE。
于是 θ ∗ = 1 n ∑ i = 1 n x i − μ ∗ \theta^*=\frac{1}{n}\sum_{i=1}^nx_i-\mu^* θ∗=n1∑i=1nxi−μ∗
-
极大似然估计的一个性质:
设 θ \theta θ的函数 g = g ( θ ) g=g(\theta) g=g(θ)是 θ \theta θ上的实值函数,且有唯一反函数。如果 θ ^ \hat \theta θ^是 θ \theta θ的MLE,则 g ( θ ^ ) g(\hat \theta) g(θ^)也是 g ( θ ) g(\theta) g(θ)的极大似然估计
e.g 一罐中装有白球和黑球,有放回地抽取一个容量为n的样本,其中有k个白球,求罐中黑球与白球之比R的极大似然估计。
解:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn为所取样本
X i = { 1 , 取 到 白 球 0 , 取 到 黑 球 X_i= \begin{cases} 1, & 取到白球 \\ 0, & 取到黑球 \end{cases} Xi={1,0,取到白球取到黑球
其中 i = 1 , 2 , . . . , n i=1,2,...,n i=1,2,...,n,则 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是取自 B ( 1 , p ) B(1,p) B(1,p)的样本,p是每次抽取时取到白球的概率,p未知,求p的MLE。似然函数为
L ( p ) = P ( Y = k ; p ) = ( n k ) p k ( 1 − p ) n − k L(p)=P(Y=k;p)=\begin{pmatrix}n \\ k\end{pmatrix}p^k(1-p)^{n-k} L(p)=P(Y=k;p)=(nk)pk(1−p)n−k
对数似然函数为
l n L ( p ) = l n ( n k ) + k l n p + ( n − k ) l n ( 1 − p ) lnL(p)=ln\begin{pmatrix}n\\ k\end{pmatrix}+ klnp+(n-k)ln(1-p) lnL(p)=ln(nk)+klnp+(n−k)ln(1−p)
对p求导并令其为0
d l n f ( p ) d p = k p − n − k 1 − p = 0 \frac{d lnf(p)}{dp}=\frac{k}{p}-\frac{n-k}{1-p}=0 dpdlnf(p)=pk−1−pn−k=0
解得
p ^ = k n \hat p =\frac{k}{n} p^=nk
对一切的 0 < p < 1 0<p<1 0<p<1,均有
P ( Y = k ; p ^ ) ≥ P ( Y = k ; p ) P(Y=k;\hat p) \geq P(Y=k;p) P(Y=k;p^)≥P(Y=k;p)
由极大似然估计的性质可得, R = 1 − p p R=\frac{1-p}{p} R=p1−p的MLE是
R ^ = 1 − p ^ p ^ = n k − 1 \hat R=\frac{1-\hat p}{\hat p}= \frac{n}{k}-1 R^=p^1−p^=kn−1