在极大似然估计和矩估计中,我们都将待估参数
θ
\theta
θ视为参数空间
Θ
\Theta
Θ的一个未知常数(或常向量),我们坚信这些参数的信息只是由样本携带,于是通过对样本“毫无偏见”的加工,得到参数估计,而后按照判别好坏的标准对估计量进行分析,但事实上,参数
θ
\theta
θ本身就是一个随机变量。
既然我们将参数
θ
∈
Θ
\theta\in\Theta
θ∈Θ视为一个取值于
Θ
\Theta
Θ的随机变量,如果是连续型随机变量,则便有一个随机密度,记为
h
(
θ
)
h(\theta)
h(θ),称为参数
θ
\theta
θ的先验分布。
设样本
X
1
,
X
2
,
.
.
.
,
X
n
X_1,X_2,...,X_n
X1,X2,...,Xn出自总体
X
X
X,并设
F
(
x
;
θ
)
F(x;\theta)
F(x;θ)是
X
X
X的分布函数,样本的联合分布
F
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
)
=
∏
i
=
1
n
F
(
x
i
;
θ
)
F(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^nF(x_i;\theta)
F(x1,x2,...,xn;θ)=i=1∏nF(xi;θ)
在贝叶斯估计中,已知
θ
\theta
θ的条件下,上述样本联合分布函数实际是条件分布,即它的相应形式为
F
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
=
∏
i
=
1
n
F
(
x
i
;
θ
)
F(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)
F(x1,x2,...,xn∣θ)=i=1∏nF(xi;θ)
同理对于样本密度也是条件密度,可有类似的记法,即
f
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
=
∏
i
=
1
n
F
(
x
i
;
θ
)
f(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)
f(x1,x2,...,xn∣θ)=i=1∏nF(xi;θ)
对于离散型的总体,其联合概率也是条件概率
P
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
=
∏
i
=
1
n
F
(
x
i
;
θ
)
P(x_1,x_2,...,x_n|\theta)=\prod_{i=1}^nF(x_i;\theta)
P(x1,x2,...,xn∣θ)=i=1∏nF(xi;θ)
设
θ
^
是
θ
\hat\theta是\theta
θ^是θ的估计量,由于
θ
^
与
θ
\hat\theta与\theta
θ^与θ或多或少会有一些距离,我们可以定义一个非负的二元函数
L
(
θ
^
,
θ
)
L(\hat\theta,\theta)
L(θ^,θ),称为在用
θ
^
估
计
θ
\hat\theta估计\theta
θ^估计θ时的损失函数。通常最常用的是所谓二次损失函数:
L
(
θ
^
,
θ
)
=
(
θ
^
−
θ
)
2
L(\hat\theta,\theta)=(\hat\theta-\theta)^2
L(θ^,θ)=(θ^−θ)2
显然
L
(
θ
^
,
θ
)
L(\hat\theta,\theta)
L(θ^,θ)越小,表明我们的估计越好,但是这里
θ
^
与
θ
\hat\theta与\theta
θ^与θ都是随机变量,因此我们所希望的“小”,只能从概率的意义上来说,也就是“平均损失”要小。考虑样本和参数的联合分布
g
(
x
1
,
x
2
,
.
.
.
x
n
;
θ
)
=
g
(
x
1
,
x
2
,
.
.
.
,
x
n
∣
θ
)
h
(
θ
)
g(x_1,x_2,...x_n;\theta)=g(x_1,x_2,...,x_n|\theta)h(\theta)
g(x1,x2,...xn;θ)=g(x1,x2,...,xn∣θ)h(θ)
于是我们有贝叶斯估计的定义如下:
对于 θ \theta θ的一个估计 θ ^ = θ ^ ( X 1 , X 2 , . . . , X n ) \hat\theta=\hat\theta(X_1,X_2,...,X_n) θ^=θ^(X1,X2,...,Xn),记 R ( θ ^ ) = ∫ ∫ R n × θ L ( θ , θ ^ ( x 1 , x 2 , . . . , x n ) ) ∙ g ( x 1 , x 2 , . . . , x n ∣ θ ) h ( θ ) d x 1 d x 2 ⋅ ⋅ ⋅ d x n d θ R(\hat\theta)=\int\int_{R^n\times\theta}L(\theta,\hat\theta(x_1,x_2,...,x_n))\bullet{g(x_1,x_2,...,x_n|\theta)h(\theta)}dx_1dx_2\cdot\cdot\cdot{dx_n}d\theta R(θ^)=∫∫Rn×θL(θ,θ^(x1,x2,...,xn))∙g(x1,x2,...,xn∣θ)h(θ)dx1dx2⋅⋅⋅dxndθ,称 R ( θ ^ ) 是 估 计 量 θ ^ R(\hat\theta)是估计量\hat\theta R(θ^)是估计量θ^的贝叶斯风险,并称使得贝叶斯风险最小的估计 θ ^ 0 \hat\theta_0 θ^0即 R ( θ ^ 0 ) = m i n R ( θ ^ ) R(\hat\theta_0)=minR(\hat\theta) R(θ^0)=minR(θ^)为 θ \theta θ的贝叶斯估计。
解法,简记
x
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
,
d
x
=
d
x
1
d
x
2
.
.
.
d
x
n
x=(x_1,x_2,...,x_n),dx=dx_1dx_2...dx_n
x=(x1,x2,...,xn),dx=dx1dx2...dxn对风险两遍关于
θ
^
\hat\theta
θ^求导得,有
∂
R
(
θ
^
)
∂
θ
^
=
2
∫
∫
Θ
∩
X
(
θ
−
θ
^
(
x
)
)
g
(
x
∣
θ
)
h
(
θ
)
d
x
d
θ
\frac{\partial{R(\hat\theta)}}{\partial{\hat\theta}}=2\int\int_{\Theta\cap{X}}(\theta-\hat\theta(x))g(x|\theta)h(\theta)dxd\theta
∂θ^∂R(θ^)=2∫∫Θ∩X(θ−θ^(x))g(x∣θ)h(θ)dxdθ
令右式等0,且积分可变换顺序,得
∫
∫
Θ
∩
X
θ
g
(
x
∣
θ
)
h
(
θ
)
d
θ
d
x
=
∫
∫
Θ
∩
X
θ
^
(
x
)
g
(
x
∣
θ
)
h
(
θ
)
d
θ
d
x
=
∫
R
n
θ
^
(
x
)
d
x
∫
Θ
g
(
x
,
θ
)
d
θ
\int\int_{\Theta\cap{X}}\theta{g(x|\theta)}h(\theta)d\theta{dx}=\int\int_{\Theta\cap{X}}\hat\theta(x)g(x|\theta)h(\theta)d\theta{dx}=\int_{R^n}\hat\theta(x)dx\int_{\Theta}g(x,\theta)d\theta
∫∫Θ∩Xθg(x∣θ)h(θ)dθdx=∫∫Θ∩Xθ^(x)g(x∣θ)h(θ)dθdx=∫Rnθ^(x)dx∫Θg(x,θ)dθ
显然若令
θ
^
=
∫
Θ
θ
h
(
θ
∣
x
)
d
θ
\hat\theta=\int_{\Theta}\theta{h}(\theta|x)d\theta
θ^=∫Θθh(θ∣x)dθ,其中
h
(
θ
∣
x
)
=
h
(
θ
∣
x
1
,
x
2
,
.
.
.
,
x
n
)
=
g
(
x
∣
θ
)
h
(
θ
)
∫
Θ
g
(
x
∣
θ
)
h
(
θ
)
d
θ
h(\theta|x)=h(\theta|x_1,x_2,...,x_n)=\frac{g(x|\theta)h(\theta)}{\int_{\Theta}g(x|\theta)h(\theta)d{\theta}}
h(θ∣x)=h(θ∣x1,x2,...,xn)=∫Θg(x∣θ)h(θ)dθg(x∣θ)h(θ)
将上面结果带入到上上式子中,即知
θ
^
0
\hat\theta_0
θ^0是它的解,亦即
θ
^
0
是
θ
\hat\theta_0是\theta
θ^0是θ的贝叶斯估计。而
θ
^
o
=
∫
Θ
θ
h
(
θ
∣
x
)
d
θ
\hat\theta_o=\int_{\Theta}\theta{h}(\theta|x)d\theta
θ^o=∫Θθh(θ∣x)dθ正是随机变量
θ
\theta
θ的条件期望,以此作为估计值就是贝叶斯估计的方法。
于是我们知,在二次损失函数下,
θ
\theta
θ的贝叶斯估计
θ
^
0
\hat\theta_0
θ^0,即为
θ
\theta
θ的后验期望值,是在条件密度下求得的期望,即为条件期望
E
(
θ
∣
X
1
,
X
2
,
.
.
.
,
X
n
)
E(\theta|X_1,X_2,...,X_n)
E(θ∣X1,X2,...,Xn),简记估计量
θ
^
0
=
E
(
θ
∣
X
)
或
估
计
值
θ
^
0
=
E
(
θ
∣
x
)
\hat\theta_0=E(\theta|X)或估计值\hat\theta_0=E(\theta|x)
θ^0=E(θ∣X)或估计值θ^0=E(θ∣x)。所以有
称 条 件 期 望 θ ^ = E ( θ ∣ X 1 , X 2 , . . . , X n ) 为 θ 的 ∗ ∗ 贝 叶 斯 估 计 量 ∗ ∗ 称条件期望\hat\theta=E(\theta|X_1,X_2,...,X_n)为\theta的**贝叶斯估计量** 称条件期望θ^=E(θ∣X1,X2,...,Xn)为θ的∗∗贝叶斯估计量∗∗