参数估计之最大似然估计
(本章内容是后面logistic回归和softmax回归的基础)
基本思路:对于离散总体,设有样本观测值
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots ,x_n
x1,x2,⋯,xn,我们写出该观测值出现的概率,它一般依赖于某个或某些参数,用
θ
\theta
θ表示,将该概率看成
θ
\theta
θ的函数,用
L
(
θ
)
L(\theta)
L(θ)表示,称为似然函数:
L
(
θ
)
=
P
(
X
1
=
x
1
,
⋯
,
X
n
=
x
n
;
θ
)
(1)
L(\theta)=P(X_1=x_1,\cdots ,X_n=x_n;\theta) \tag{1}
L(θ)=P(X1=x1,⋯,Xn=xn;θ)(1)
求最大似然估计就是找
θ
\theta
θ的估计值
θ
^
=
θ
^
(
x
1
,
⋯
,
x
n
)
\hat {\theta}=\hat {\theta}(x_1,\cdots ,x_n)
θ^=θ^(x1,⋯,xn)使得上式的
L
(
θ
)
L(\theta)
L(θ)达到最大。
例子1
设产品分为合格品与不合格品两类,我们用一个随机变量
X
X
X来表示某个产品经检查后的不合格品数,则
X
=
0
X=0
X=0表示合格品,
X
=
1
X=1
X=1表示不合格品,则
X
X
X服从二点分布
b
(
1
,
p
)
b(1,p)
b(1,p),其中
p
p
p是未知的不合格率。先抽取n个产品看是否合格,得到样本
x
1
,
⋯
,
x
n
x_1,\cdots ,x_n
x1,⋯,xn,这批观测值发生的概率为:
P
(
X
1
=
x
1
,
⋯
,
X
n
=
x
n
;
p
)
=
∏
i
=
1
n
p
x
i
(
1
−
p
)
1
−
x
i
=
p
∑
i
=
1
n
x
i
(
1
−
p
)
n
−
∑
i
=
1
n
x
i
(2)
\begin{aligned} P(X_1=x_1,\cdots ,X_n=x_n;p) &= \prod_{i=1}^np^{x_i}(1-p)^{1-x_i}\\ &=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} \tag{2} \end{aligned}
P(X1=x1,⋯,Xn=xn;p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi(2)
似然函数为
L
(
p
)
=
p
∑
i
=
1
n
x
i
(
1
−
p
)
n
−
∑
i
=
1
n
x
i
(3)
L(p)=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} \tag{3}
L(p)=p∑i=1nxi(1−p)n−∑i=1nxi(3)
要求
p
p
p使得
L
(
p
)
L(p)
L(p)最大,可将
(
3
)
(3)
(3)两端取对数并关于
p
p
p求导令其为0(这里其实省略了证明
(
3
)
(3)
(3)是一个凹函数的过程),得到似然方程:
∂
L
(
p
)
∂
p
=
0
(4)
\frac{\partial{L(p)}}{\partial{p}}=0 \tag{4}
∂p∂L(p)=0(4)
求解
(
4
)
(4)
(4)即可得到
p
p
p的最大似然估计,为
p
^
=
p
^
(
x
1
,
⋯
,
x
n
)
=
1
n
∑
i
=
1
n
x
i
=
x
ˉ
(5)
\hat{p}=\hat{p}(x_1,\cdots,x_n)=\frac{1}{n}\sum _{i=1}^{n}x_i=\bar x \tag{5}
p^=p^(x1,⋯,xn)=n1i=1∑nxi=xˉ(5)