问题来源
在学习模式分类过程中,我们会用到极大似然估计,最常见的是用它来估计期望和方差,而概率论中有这个结论,就是极大似然估计得到的方差是有偏的,那么为什么呢?
估计的无偏性
如果 θ ^ \hat{\theta} θ^ 是我们对 θ \theta θ 的估计,则满足 E ( θ ^ ) = θ E(\hat\theta)=\theta E(θ^)=θ 时我们说该估计是无偏的.
极大似然估计
假设样本集
D
D
D中有
n
n
n个样本:
x
1
,
x
2
,
…
x
n
x_1,x_2,\ldots x_n
x1,x2,…xn.我们需要估计的参数是
θ
\theta
θ,由于这些样本是独立抽取的,所以有下式成立:
p
(
D
∣
θ
)
=
∏
k
=
1
n
p
(
x
k
∣
θ
)
p(D|\theta)=\prod_{k=1}^{n}p(x_k|\theta)
p(D∣θ)=k=1∏np(xk∣θ)
为简化计算,使用对数似然函数:
l
(
θ
)
=
ln
(
p
(
D
∣
θ
)
)
=
∑
k
=
1
n
ln
(
p
(
x
k
∣
θ
)
l(\theta)=\ln(p(D|\theta))=\sum_{k=1}^n \ln (p(x_k|\theta)
l(θ)=ln(p(D∣θ))=k=1∑nln(p(xk∣θ)
我们要求其极大值,对其求梯度,梯度为零的地方就是可能的极大值处:
∇
θ
=
∑
k
=
1
n
∇
θ
ln
(
p
(
x
k
∣
θ
)
)
\nabla_\theta=\sum_{k=1}^{n}\nabla_\theta \ln(p(x_k|\theta))
∇θ=k=1∑n∇θln(p(xk∣θ))
对于一维的正态分布,有:
ln
p
(
x
)
=
−
1
2
2
π
σ
−
1
2
σ
(
x
−
μ
)
2
\ln p(x)= -\frac{1}{2}2\pi\sigma-\frac{1}{2\sigma}(x-\mu)^2
lnp(x)=−212πσ−2σ1(x−μ)2
这里我们假设
μ
\mu
μ 已知,使用样本估计
σ
\sigma
σ :
∇
σ
ln
p
(
x
)
=
−
1
2
σ
+
(
x
k
−
μ
)
2
2
σ
2
\nabla _\sigma \ln p(x)=-\frac{1}{2\sigma}+\frac{(x_k-\mu)^2}{2\sigma^2}
∇σlnp(x)=−2σ1+2σ2(xk−μ)2
则极值条件为:
−
∑
k
=
1
n
1
σ
^
+
∑
k
=
1
n
(
x
k
−
μ
)
2
σ
^
2
=
0
-\sum_{k=1}^{n}\frac{1}{\hat{\sigma}}+\sum_{k=1}^{n}\frac{(x_k-\mu)}{2\hat{\sigma}^2}=0
−k=1∑nσ^1+k=1∑n2σ^2(xk−μ)=0
可得方差的极大似然估计为:
σ
^
2
=
1
n
∑
k
=
1
n
(
x
k
−
μ
)
2
\hat{\sigma}^2=\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2
σ^2=n1k=1∑n(xk−μ)2
方差估计的有偏性
随机变量的和的均值和方差
x
1
,
x
2
,
…
,
x
n
x_1,x_2,\ldots,x_n
x1,x2,…,xn是
n
n
n个独立同分布的随机变量
Y
=
x
1
+
x
2
+
…
+
x
n
Y=x_1+x_2+\ldots+x_n
Y=x1+x2+…+xn,有:
E
(
x
i
)
=
μ
,
D
(
x
i
)
=
σ
2
,
E
(
x
i
2
)
=
σ
2
+
μ
2
,
i
=
1
,
2
,
.
.
.
n
E(x_i)=\mu,D(x_i)=\sigma^2,E(x_i^2)=\sigma^2+\mu^2, i=1,2,...n
E(xi)=μ,D(xi)=σ2,E(xi2)=σ2+μ2,i=1,2,...n
E
(
Y
)
=
n
μ
,
D
(
Y
)
=
n
σ
2
,
E
(
Y
2
)
=
D
(
Y
)
+
E
2
(
Y
)
=
n
σ
2
+
n
2
μ
2
E(Y)=n\mu,D(Y)=n\sigma^2,E(Y^2)=D(Y)+E^2(Y)=n\sigma^2+n^2\mu^2
E(Y)=nμ,D(Y)=nσ2,E(Y2)=D(Y)+E2(Y)=nσ2+n2μ2
证明有偏性
我们对一维高斯分布的方差的估计为 σ ^ 2 = 1 n ∑ k = 1 n ( x k − μ ) 2 \hat{\sigma}^2=\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2 σ^2=n1k=1∑n(xk−μ)2 它的期望为:
E
(
σ
^
2
)
=
E
{
1
n
∑
k
=
1
n
(
x
k
−
μ
)
2
}
=
E
{
1
n
∑
k
=
1
n
x
k
2
−
μ
2
}
=
1
n
∑
k
=
1
n
E
(
x
k
2
)
−
E
(
μ
2
)
=
(
σ
2
+
μ
2
)
−
E
{
(
x
1
+
x
2
+
…
+
x
n
n
)
2
}
=
(
σ
2
+
μ
2
)
−
1
n
2
E
(
Y
2
)
=
(
σ
2
+
μ
2
)
−
1
n
2
(
n
2
μ
2
+
n
σ
2
)
=
n
−
1
n
σ
2
\begin{aligned} E(\hat\sigma^2)&=E\{\frac{1}{n}\sum_{k=1}^{n}(x_k-\mu)^2\}\\ & =E\{ \frac{1}{n}\sum_{k=1}^{n}x_k^2-\mu^2\} \\ &= \frac{1}{n} \sum_{k=1}^{n} E(x_k^2)-E(\mu^2)\\ &=(\sigma^2+\mu^2)-E\{ (\frac{x_1+x_2+\ldots+x_n}{n})^2 \} \\ &=(\sigma^2+\mu^2)-\frac{1}{n^2}E(Y^2)\\ &=(\sigma^2+\mu^2)-\frac{1}{n^2}(n^2\mu^2+n\sigma^2)\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}
E(σ^2)=E{n1k=1∑n(xk−μ)2}=E{n1k=1∑nxk2−μ2}=n1k=1∑nE(xk2)−E(μ2)=(σ2+μ2)−E{(nx1+x2+…+xn)2}=(σ2+μ2)−n21E(Y2)=(σ2+μ2)−n21(n2μ2+nσ2)=nn−1σ2
可知,该估计是有偏的。
结语
-
以上内容部分摘抄自 《模式分类》,机械工业出版社,中信出版社,Richard O. Duda Peter E.Hart David G.Stock 著,李宏东 姚天翔 等译
-
公式推导纯属个人理解,敬请批评指正。