大体上,统计学分为两个学派,一个是经典学派(又称频率学派),用的是总体信息和样本信息来处理参数的问题。另一个是贝叶斯学派,除了用的是同经典学派一样的总体信息和样本信息之外,还有先验信息。那么什么是先验信息呢?比如我们要了解全国人的平均身高,那么总体就是全国人的平均身高,样本就是从每个省里抽1万个人出来的平均身高,那么什么是先验信息呢?今年是2020年,我们可以考察之前的数据,比如2000年的全国人的平均身高,那么我们就能用2000年的全国人的平均身高作为一个参考,这个信息就叫做先验信息。
贝叶斯估计的操作步骤:
样本:
X
1
,
⋯
X
n
\boldsymbol{X}_1,\cdots \boldsymbol{X}_{\boldsymbol{n}}
X1,⋯Xn
的密度为:
f
(
x
)
\boldsymbol{f}\left( \boldsymbol{x} \right)
f(x)
其是独立同分布,从同一个总体中抽出来的,并且总的的未知参数为
θ
{\theta }
θ,什么是未知参数呢?全国平均人的身高这个东西就叫做总体参数,此时我们并不知道这个参数,所以称其为未知参数
θ
{\theta }
θ
并且将先验的分布记为:
π
(
θ
)
\boldsymbol{\pi }\left( \boldsymbol{\theta } \right)
π(θ)
注意,我们的任务是要通过样本信息和先验信息来求得其后验信息、后验分布。
记:
h
(
θ
∣
x
)
=
∏
i
=
1
n
f
(
x
i
,
θ
)
π
(
θ
)
\boldsymbol{h}\left( \boldsymbol{\theta }|\boldsymbol{x} \right) =\prod_{\boldsymbol{i}=1}^{\boldsymbol{n}}{\boldsymbol{f}\left( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{\theta } \right)}\boldsymbol{\pi }\left( \boldsymbol{\theta } \right)
h(θ∣x)=i=1∏nf(xi,θ)π(θ)
上面的公式是求样本和参数的联合分布
再记:
m
(
x
)
=
∫
h
(
θ
∣
x
)
d
x
\boldsymbol{m}\left( \boldsymbol{x} \right) =\int{\boldsymbol{h}\left( \boldsymbol{\theta }|\boldsymbol{x} \right)}\boldsymbol{dx}
m(x)=∫h(θ∣x)dx
其被积区域就是
θ
{\theta }
θ的范围
那么后验密度
π
(
θ
∣
x
)
\boldsymbol{\pi }\left( \boldsymbol{\theta }|\boldsymbol{x} \right)
π(θ∣x)就为:
π
(
θ
∣
x
)
=
h
(
θ
∣
x
)
m
(
x
)
\boldsymbol{\pi }\left( \boldsymbol{\theta }|\boldsymbol{x} \right) =\frac{\boldsymbol{h}\left( \boldsymbol{\theta }|\boldsymbol{x} \right)}{\boldsymbol{m}\left( \boldsymbol{x} \right)}
π(θ∣x)=m(x)h(θ∣x)
其目的是求参数
θ
{\theta }
θ在样本信息条件下的后验分布,进而在该
θ
{\theta }
θ后验分布的基础上求
θ
{\theta }
θ得各种后验估计。
实际上贝叶斯估计就是在求出这个后验分布密度之后,根据这个密度函数求出他的期望。
下面举个例子:
例、设总体X服从二项分布,即X~B(N,p),且N已知,p为未知参数,p的先验分布为0到1的均匀分布,即U(0,1),现有n个样本:
X
1
,
⋯
,
X
n
\boldsymbol{X}_1,\cdots ,\boldsymbol{X}_{\boldsymbol{n}}
X1,⋯,Xn,求p的贝叶斯估计。
解:
步骤一:找出其密度,因为是二项分布,所以其密度为:
p
(
X
=
x
)
=
C
N
x
p
x
(
1
−
p
)
N
−
x
\boldsymbol{p}\left( \boldsymbol{X}=\boldsymbol{x} \right) =\boldsymbol{C}_{\boldsymbol{N}}^{\boldsymbol{x}}\boldsymbol{p}^{\boldsymbol{x}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{N}-\boldsymbol{x}}
p(X=x)=CNxpx(1−p)N−x
步骤二:求联合分布h,得
h
(
X
,
θ
)
=
∏
i
=
1
n
C
N
x
i
p
x
i
(
1
−
p
)
N
−
x
i
×
1
\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right) =\prod_{\boldsymbol{i}=1}^{\boldsymbol{n}}{\boldsymbol{C}_{\boldsymbol{N}}^{\boldsymbol{x}_{\boldsymbol{i}}}\boldsymbol{p}^{\boldsymbol{x}_{\boldsymbol{i}}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{N}-\boldsymbol{x}_{\boldsymbol{i}}}}\,\,\times 1
h(X,θ)=i=1∏nCNxipxi(1−p)N−xi×1
(因为是0到1的均匀分布,所以先验分布为1)
步骤三:求后验密度
π
(
θ
,
X
)
=
h
(
X
,
θ
)
∫
h
(
X
,
θ
)
d
θ
\boldsymbol{\pi }\left( \boldsymbol{\theta },\boldsymbol{X} \right) =\frac{\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right)}{\int{\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right) \boldsymbol{d\theta }}}
π(θ,X)=∫h(X,θ)dθh(X,θ)
这里的
θ
{\theta }
θ其实就是p,在
h
(
X
,
θ
)
\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right)
h(X,θ)中
C
N
x
i
\boldsymbol{C}_{\boldsymbol{N}}^{\boldsymbol{x}_{\boldsymbol{i}}}
CNxi是没有p的,所以分子分母可以约掉,得:
π
(
θ
,
X
)
=
h
(
X
,
θ
)
∫
h
(
X
,
θ
)
d
θ
=
p
∑
X
i
(
1
−
p
)
n
N
−
∑
X
i
∫
0
1
p
∑
X
i
(
1
−
p
)
n
N
−
∑
X
i
d
p
\boldsymbol{\pi }\left( \boldsymbol{\theta },\boldsymbol{X} \right) =\frac{\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right)}{\int{\boldsymbol{h}\left( \boldsymbol{X},\boldsymbol{\theta } \right) \boldsymbol{d\theta }}}=\frac{\boldsymbol{p}^{\sum{\boldsymbol{X}_{\boldsymbol{i}}}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}}}}{\int_0^1{\boldsymbol{p}^{\sum{\boldsymbol{X}_{\boldsymbol{i}}}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}}}}\boldsymbol{dp}}
π(θ,X)=∫h(X,θ)dθh(X,θ)=∫01p∑Xi(1−p)nN−∑Xidpp∑Xi(1−p)nN−∑Xi
其中,分母可以凑成伽马函数:
∫
0
1
p
1
+
∑
X
i
−
1
(
1
−
p
)
n
N
−
∑
X
i
+
1
−
1
d
p
\int_0^1{\boldsymbol{p}^{1+\sum{\boldsymbol{X}_{\boldsymbol{i}}-1}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}+1-1}}}\boldsymbol{dp}
∫01p1+∑Xi−1(1−p)nN−∑Xi+1−1dp
=
Γ
(
1
+
∑
X
i
)
Γ
(
n
N
−
∑
X
i
+
1
)
Γ
(
n
N
+
2
)
\frac{\boldsymbol{\varGamma }\left( 1+\sum{\boldsymbol{X}_{\boldsymbol{i}}} \right) \boldsymbol{\varGamma }\left( \boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}+1} \right)}{\boldsymbol{\varGamma }\left( \boldsymbol{nN}+2 \right)}
Γ(nN+2)Γ(1+∑Xi)Γ(nN−∑Xi+1)
将其带入
π
(
θ
,
X
)
\boldsymbol{\pi }\left( \boldsymbol{\theta },\boldsymbol{X} \right)
π(θ,X)得:
π
(
θ
,
X
)
=
Γ
(
n
N
+
2
)
p
∑
X
i
(
1
−
p
)
n
N
−
∑
X
i
Γ
(
1
+
∑
X
i
)
Γ
(
n
N
−
∑
X
i
+
1
)
\boldsymbol{\pi }\left( \boldsymbol{\theta },\boldsymbol{X} \right) =\frac{\boldsymbol{\varGamma }\left( \boldsymbol{nN}+2 \right) \boldsymbol{p}^{\sum{\boldsymbol{X}_{\boldsymbol{i}}}}\left( 1-\boldsymbol{p} \right) ^{\boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}}}}{\boldsymbol{\varGamma }\left( 1+\sum{\boldsymbol{X}_{\boldsymbol{i}}} \right) \boldsymbol{\varGamma }\left( \boldsymbol{nN}-\sum{\boldsymbol{X}_{\boldsymbol{i}}+1} \right)}
π(θ,X)=Γ(1+∑Xi)Γ(nN−∑Xi+1)Γ(nN+2)p∑Xi(1−p)nN−∑Xi
步骤四:求得了后验密度,再求其期望,就得到了贝叶斯估计
故p的贝叶斯估计为:
p
^
=
1
+
∑
X
i
n
N
+
2
\boldsymbol{\hat{p}}=\frac{1+\sum{\boldsymbol{X}_{\boldsymbol{i}}}}{\boldsymbol{nN}+2}
p^=nN+21+∑Xi