0.极大似然估计
理解:确定合适的参数使得模型对样本的解释性最强。似然的过程就是由样本实际推测模型参数的过程。
以下我们分别考虑总体属于离散型和连续型两种情况下的似然函数及其求解方法。
1.离散型
若总体 X X X属于离散型,其分布律 P { X = x } = p ( x ; θ ) P\{X=x\}=p(x;\theta) P{X=x}=p(x;θ), θ ∈ Θ \theta\in \Theta θ∈Θ的形式为已知。
其中
- x x x是已知的样本值。
- θ \theta θ为待估参数, Θ \Theta Θ是 θ \theta θ可能取值的范围。
- p ( x ; θ ) p(x;\theta) p(x;θ)表示在参数取值为 θ \theta θ的前提条件下, X = x X=x X=x发生的概率,它是一个条件概率。
设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn是来自
X
X
X的样本,则
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
n
=
x
n
X_1=x_1,X_2=x_2,\cdots,X_n=x_n
X1=x1,X2=x2,⋯,Xn=xn同时发生的概率为
∏
i
=
1
n
p
(
x
i
;
θ
)
\prod_{i=1}^{n}p(x_i;\theta)
∏i=1np(xi;θ)
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
,
θ
∈
Θ
(1)
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta),\theta \in \Theta \tag{1}
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏np(xi;θ),θ∈Θ(1)
它是关于
θ
\theta
θ的函数,随
θ
\theta
θ的取值而变化
,
L
(
θ
)
,L(\theta)
,L(θ)称为样本的似然函数。
似然过程:固定样本观测值
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,在
θ
\theta
θ取值的可能范围
Θ
\Theta
Θ内挑选使似然函数
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
L(x_1,x_2,\cdots,x_n;\theta)
L(x1,x2,⋯,xn;θ)达到最大的参数值
θ
^
\hat{\theta}
θ^,作为参数
θ
\theta
θ的估计值。
θ
^
=
arg max
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
(2)
\hat{\theta}={\underset {\theta \in \Theta}{\operatorname{arg\,max}}}\,L(x_1,x_2,\cdots,x_n;\theta) \tag{2}
θ^=θ∈ΘargmaxL(x1,x2,⋯,xn;θ)(2)
这样得到的
θ
^
\hat{\theta}
θ^与样本值
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn有关,常记为
θ
^
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat{\theta}(x_1,x_2,\cdots,x_n)
θ^(x1,x2,⋯,xn),称为参数
θ
\theta
θ的极大似然估计值。
2.连续型
若总体 X X X属于连续型,其概率密度 f ( x ; θ ) , θ ∈ Θ f(x;\theta),\theta\in \Theta f(x;θ),θ∈Θ的形式已知,
同理设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的样本,则 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的联合密度为 ∏ i = 1 n f ( x i ; θ ) \prod_{i=1}^{n}f(x_i;\theta) ∏i=1nf(xi;θ)
设
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn是相应于样本
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn的一个样本值,则随机点
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots,X_n)
(X1,X2,⋯,Xn)落在点
(
x
1
,
x
2
,
⋯
,
x
n
)
(x_1,x_2,\cdots,x_n)
(x1,x2,⋯,xn)的邻域(边长分别为
d
x
1
,
d
x
2
,
⋯
,
d
x
n
dx_1,dx_2,\cdots,dx_n
dx1,dx2,⋯,dxn的n维立方体)内的概率近似地为
∏
i
=
1
n
f
(
x
i
;
θ
)
d
x
i
=
∏
i
=
1
n
f
(
x
i
;
θ
)
∏
i
=
1
n
d
x
i
(3)
\prod_{i=1}^{n}f(x_i;\theta)dx_i\\ =\prod_{i=1}^{n}f(x_i;\theta)\,\prod_{i=1}^{n}dx_i \tag{3}
i=1∏nf(xi;θ)dxi=i=1∏nf(xi;θ)i=1∏ndxi(3)
其值随
θ
\theta
θ的取值而变化,与离散型的情况一样,我们取
θ
\theta
θ的估计值
θ
^
\hat{\theta}
θ^使概率取到最大值但因为
∏
i
=
1
n
d
x
i
\prod_{i=1}^{n}dx_i
∏i=1ndxi不随
θ
\theta
θ而变,故只需考虑似然函数
L
(
θ
)
L(\theta)
L(θ)的最大值。
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
,
θ
∈
Θ
(4)
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta),\theta \in \Theta \tag{4}
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏nf(xi;θ),θ∈Θ(4)
同理,参数
θ
\theta
θ的极大似然估计值为
θ
^
=
arg max
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
(5)
\hat{\theta}={\underset {\theta \in \Theta}{\operatorname{arg\,max}}}\,L(x_1,x_2,\cdots,x_n;\theta) \tag{5}
θ^=θ∈ΘargmaxL(x1,x2,⋯,xn;θ)(5)
3.求解过程
在很多情形下,
p
(
x
;
θ
)
p(x;\theta)
p(x;θ)和
f
(
x
;
θ
)
f(x;\theta)
f(x;θ)关于
θ
\theta
θ可微,这时
θ
^
\hat{\theta}
θ^可从方程
d
d
θ
L
(
θ
)
=
0
(6)
\frac{d}{d\theta}L(\theta)=0 \tag{6}
dθdL(θ)=0(6)
解得。
因为式(1)和式(4)两边同时取对数不改变函数的单调性,所以
L
(
θ
)
L(\theta)
L(θ)与
l
n
L
(
θ
)
lnL(\theta)
lnL(θ)在同一
θ
\theta
θ处取得极值。因此,
θ
\theta
θ的极大似然估计也可以由如下方程求得。
d
d
θ
l
n
L
(
θ
)
=
0
(7)
\frac{d}{d\theta}ln\,L(\theta)=0 \tag{7}
dθdlnL(θ)=0(7)
4.示例
设 X ∼ b ( 1 , p ) X\sim b(1,p) X∼b(1,p), X X X服从参数为 p p p的伯努利分布,它取1的概率为 p p p,取0的概率为 1 − p 1-p 1−p。 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自 X X X的一个样本,试求参数 p p p的极大似然估计量
解:设
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn是相应于样本
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn的一个样本值。
X
X
X的分布律为
P
(
X
=
x
)
=
p
x
(
1
−
p
)
1
−
x
,
x
=
0
,
1
(8)
P(X=x)=p^x(1-p)^{1-x},\quad x=0,1 \tag{8}
P(X=x)=px(1−p)1−x,x=0,1(8)
似然函数为
L
(
p
)
=
∏
i
=
1
n
p
x
i
(
1
−
p
)
1
−
x
i
=
p
∑
i
=
1
n
x
i
(
1
−
p
)
n
−
∑
i
=
1
n
x
i
(9)
L(p)=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i} \tag{9}
L(p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi(9)
两边同时取对数得
l
n
L
(
p
)
=
∑
i
=
1
n
x
i
l
n
p
+
(
n
−
∑
i
=
1
n
x
i
)
l
n
(
1
−
p
)
(10)
ln\,L(p)=\sum_{i=1}^{n}x_i \,lnp+ (n-\sum_{i=1}^{n}x_i)ln(1-p) \tag{10}
lnL(p)=i=1∑nxilnp+(n−i=1∑nxi)ln(1−p)(10)
令
d
d
p
l
n
L
(
p
)
=
∑
i
=
1
n
x
i
p
−
n
−
∑
i
=
1
n
x
i
1
−
p
=
0
(11)
\frac{d}{dp}ln\,L(p)=\frac{\sum_{i=1}^{n}x_i}{p}-\frac{n-\sum_{i=1}^{n}x_i}{1-p}=0 \tag{11}
dpdlnL(p)=p∑i=1nxi−1−pn−∑i=1nxi=0(11)
解得
p
p
p的极大似然估计值为
p
^
=
1
n
∑
i
=
1
n
x
i
(12)
\hat{p}=\frac{1}{n}\sum_{i=1}^{n}x_i \tag{12}
p^=n1i=1∑nxi(12)
5.拓展
对于含有多个未知参数
θ
1
,
θ
2
,
⋯
,
θ
k
\theta_1,\theta_2,\cdots,\theta_k
θ1,θ2,⋯,θk的情况,似然函数为
L
(
θ
1
,
θ
2
,
⋯
,
θ
k
)
L(\theta_1,\theta_2,\cdots,\theta_k)
L(θ1,θ2,⋯,θk),同单参数求解类似,我们分别对参数
θ
i
\theta_i
θi求偏导并令其偏导为0
∂
∂
θ
i
L
=
0
,
i
∈
{
1
,
2
,
⋯
,
k
}
(13)
\frac{\partial}{\partial \theta_i}L=0,i\in \{1,2,\cdots,k\} \tag{13}
∂θi∂L=0,i∈{1,2,⋯,k}(13)
或令
∂
∂
θ
i
l
n
L
=
0
,
i
∈
{
1
,
2
,
⋯
,
k
}
(14)
\frac{\partial}{\partial \theta_i}ln\,L=0,i\in \{1,2,\cdots,k\} \tag{14}
∂θi∂lnL=0,i∈{1,2,⋯,k}(14)
求解方程组(13)或(14),即可得到各未知参数
θ
i
\theta_i
θi的极大似然估计值。