第七章 Bayes方法和统计决策理论(2)
1.Bayes点估计与区间估计
在点估计方面,有了后验分布以后,可以按照后验分布求未知参数 θ \theta θ的点估计。一般常用以下三种估计:
- 后验众数估计:使后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)达到最大时的 θ \theta θ值,也称为后验密度的众数,用后验密度的众数作为 θ \theta θ的估计称为后验众数估计,也称为广义极大似然估计,记作 θ ^ M D \hat \theta_{MD} θ^MD。
- 后验中位数估计:用后验分布的中位数作为 θ \theta θ估计,称为 θ \theta θ的后验中位数估计,记作 θ ^ M E \hat \theta_{ME} θ^ME.
- 后验均值估计:用后验分布的期望作为 θ \theta θ的估计,称为后验期望估计(后验均值估计),记作 θ ^ E \hat \theta_E θ^E。
在不引起混淆的情况下,上述三个估计都用 θ ^ B \hat \theta_B θ^B来记,表示Bayes估计。
衡量Bayes点估计的优劣使用后验均方误差PMSE,在样本观测值为
x
x
x的情况下设
θ
\theta
θ的Bayes估计为
δ
(
x
)
\delta(x)
δ(x),则PMSE如下定义来度量估计量的精度:
PMSE
(
δ
(
x
)
)
=
E
θ
∣
x
[
(
θ
−
δ
(
x
)
)
2
]
\text{PMSE}(\delta(x))=E^{\theta|x}[(\theta-\delta(x))^2]
PMSE(δ(x))=Eθ∣x[(θ−δ(x))2]
PMSE越小越好,特别当
δ
(
x
)
=
E
(
θ
∣
x
)
\delta(x)=E(\theta|x)
δ(x)=E(θ∣x),即使用期望型Bayes估计时,
δ
(
x
)
\delta(x)
δ(x)的PMSE就是后验方差
D
(
θ
∣
x
)
D(\theta|x)
D(θ∣x)。可以证明,当后验均值为
μ
π
(
x
)
\mu^\pi(x)
μπ(x),后验方差为
V
π
(
x
)
V^\pi(x)
Vπ(x)时:
PMSE
(
δ
(
x
)
)
=
E
θ
∣
x
[
(
θ
−
δ
(
x
)
)
2
]
=
E
θ
∣
x
[
(
(
θ
−
μ
π
(
x
)
)
+
(
μ
π
(
x
)
−
δ
(
x
)
)
)
2
]
=
V
π
(
x
)
+
(
μ
π
(
x
)
−
δ
(
x
)
)
2
≥
V
π
(
x
)
\begin{aligned} \text{PMSE}(\delta(x))=&E^{\theta|x}[(\theta-\delta(x))^2]\\ =&E^{\theta|x}[((\theta-\mu^\pi(x))+(\mu^\pi(x)-\delta(x)))^2]\\ =&V^\pi(x)+(\mu^\pi(x)-\delta(x))^2\\ \ge&V^\pi(x) \end{aligned}
PMSE(δ(x))===≥Eθ∣x[(θ−δ(x))2]Eθ∣x[((θ−μπ(x))+(μπ(x)−δ(x)))2]Vπ(x)+(μπ(x)−δ(x))2Vπ(x)
所以后验期望估计是使得PMSE最小的Bayes估计,即PMSE准则下的最优估计,所以一般使用后验期望估计作为未知参数的Bayes点估计。
对于区间估计,当获得后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)后,如果存在区间
[
a
,
b
]
[a,b]
[a,b],使
θ
\theta
θ落在
[
a
,
b
]
[a,b]
[a,b]内的后验概率为
1
−
α
1-\alpha
1−α,即
P
(
a
≤
θ
≤
b
∣
x
)
≥
1
−
α
\mathbf P(a\le\theta\le b|x)\ge 1-\alpha
P(a≤θ≤b∣x)≥1−α,则称
[
a
,
b
]
[a,b]
[a,b]是
θ
\theta
θ的Bayes区间估计,又叫可信区间。对于给定的样本
x
x
x和
0
<
α
<
1
0<\alpha<1
0<α<1,如果存在两个统计量
θ
^
1
,
θ
^
2
\hat \theta_1,\hat \theta_2
θ^1,θ^2使得
P
(
θ
^
1
(
x
)
≤
θ
≤
θ
^
2
(
x
)
∣
x
)
≥
1
−
α
\mathbf P(\hat \theta_1(x)\le \theta\le\hat \theta_2(x)|x)\ge1-\alpha
P(θ^1(x)≤θ≤θ^2(x)∣x)≥1−α
就称
[
θ
^
1
,
θ
^
2
]
[\hat \theta_1,\hat\theta_2]
[θ^1,θ^2]为
θ
\theta
θ的可信水平为
1
−
α
1-\alpha
1−α的Bayes可信区间。同理可以定义Bayes可信限。
2.Bayes假设检验
对于检验问题
H
0
:
θ
∈
Θ
0
↔
θ
∈
Θ
1
H_0:\theta\in\Theta_0\leftrightarrow \theta\in\Theta_1
H0:θ∈Θ0↔θ∈Θ1,用Bayes方法得到
θ
\theta
θ的后验分布
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)后,只需要计算
α
0
=
P
(
θ
∈
Θ
0
∣
x
)
,
α
1
=
P
(
θ
∈
Θ
1
∣
x
)
\alpha_0=\mathbf P(\theta \in\Theta_0|x),\quad \alpha_1=\mathbf P(\theta\in\Theta_1|x)
α0=P(θ∈Θ0∣x),α1=P(θ∈Θ1∣x)
并比较
α
0
,
α
1
\alpha_0,\alpha_1
α0,α1的大小,就决定接受
H
0
H_0
H0还是
H
1
H_1
H1,如果
α
0
/
α
1
>
1
\alpha_0/\alpha_1>1
α0/α1>1则接受
H
0
H_0
H0,否则就拒绝
H
0
H_0
H0。
3.Bayes统计决策
Bayes统计决策四要素:
- 样本空间与样本分布族。即取值于样本空间 X \mathscr X X的随机变量及其分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {f(x,θ),θ∈Θ}。
- 行动空间。是决策者或统计工作者对某个统计决策问题可能采取的行动所构成的非空集合 A \mathscr A A。在估计问题中 A \mathscr A A由一切估计量 δ ( x ) \delta(x) δ(x)构成,可以取 A = Θ \mathscr A=\Theta A=Θ;在检验问题中 A \mathscr A A由两个行动 { a 0 , a 1 } \{a_0,a_1\} {a0,a1}构成,分别代表接受和拒绝原假设。
- 损失函数。是一个定义在 Θ × A \Theta\times \mathscr A Θ×A上的非负函数,记作 L ( a , θ ) L(a,\theta) L(a,θ),它表示参数为 θ \theta θ时采取行动 a ∈ A a\in\mathscr A a∈A所蒙受的损失。
- 先验分布。这是Bayes统计决策的特有要素,定义在参数空间 Θ \Theta Θ上的先验分布函数 F π ( θ ) F^\pi(\theta) Fπ(θ)或概率函数 π ( θ ) \pi(\theta) π(θ)。
Bayes统计决策就是研究如何根据样本
x
x
x的值,恰当选取行动
a
a
a使得按样本分布或后验分布计算的平均损失最小。在定义损失函数之前先定义平均损失,由于采取的行动
δ
\delta
δ是依赖于样本
X
\boldsymbol X
X的,因此损失函数
L
(
δ
,
θ
)
L(\delta,\theta)
L(δ,θ)也和样本
X
\boldsymbol X
X有关,记平均损失为风险函数,即
R
(
δ
,
θ
)
=
E
[
L
(
δ
(
X
)
,
θ
)
]
=
∫
X
L
(
δ
(
x
)
,
θ
)
f
(
x
,
θ
)
d
x
R(\delta,\theta)=E[L(\delta(\boldsymbol X),\theta)]=\int_\mathscr XL(\delta(\boldsymbol x),\theta)f(x,\theta)d\boldsymbol x
R(δ,θ)=E[L(δ(X),θ)]=∫XL(δ(x),θ)f(x,θ)dx
当然我们希望风险函数越小越好,如果存在一个决策函数
δ
∗
\delta^*
δ∗,使得对任何一个决策函数
δ
\delta
δ都有
R
(
δ
∗
,
θ
)
≤
R
(
δ
,
θ
)
,
∀
θ
∈
Θ
R(\delta^*,\theta)\le R(\delta,\theta),\forall \theta\in\Theta
R(δ∗,θ)≤R(δ,θ),∀θ∈Θ,则称决策
δ
∗
\delta^*
δ∗是一直最优决策函数。如果一直最优决策存在,那应当采用它,但除了某些特殊情形,一直最优解通常不存在,所以需要放宽标准。
现定义Bayes风险,设
R
(
δ
,
θ
)
R(\delta,\theta)
R(δ,θ)为
δ
\delta
δ的风险函数,
H
(
θ
)
H(\theta)
H(θ)为先验分布,如果存在密度则记作
π
(
θ
)
\pi(\theta)
π(θ),则称
δ
\delta
δ的Bayes风险为
R
H
(
δ
)
=
E
θ
[
R
(
δ
,
θ
)
]
=
∫
Θ
R
(
δ
,
θ
)
d
H
(
θ
)
=
∫
Θ
R
(
δ
,
θ
)
π
(
θ
)
d
θ
R_H(\delta)=E^\theta[R(\delta,\theta)]=\int_\Theta R(\delta,\theta)dH(\theta)=\int_\Theta R(\delta,\theta)\pi(\theta) d\theta
RH(δ)=Eθ[R(δ,θ)]=∫ΘR(δ,θ)dH(θ)=∫ΘR(δ,θ)π(θ)dθ
这是将风险函数按照先验分布
π
(
θ
)
/
H
(
θ
)
\pi(\theta)/H(\theta)
π(θ)/H(θ)加权得到的平均风险,使得Bayes风险达到最小的决策函数称为该决策问题的Bayes解,即如果存在
δ
∗
\delta^*
δ∗使得对任一决策函数
δ
\delta
δ有
R
H
(
δ
∗
)
≤
R
H
(
δ
)
R_H(\delta^*)\le R_H(\delta)
RH(δ∗)≤RH(δ),则称
δ
∗
\delta^*
δ∗为所考虑的统计决策问题的Bayes解。
当获得样本后,相应地会有后验分布
π
(
θ
∣
x
)
/
H
(
θ
∣
x
)
\pi(\theta|x)/H(\theta|x)
π(θ∣x)/H(θ∣x),因此将损失函数按后验分布加权平均就得到后验风险,即
R
(
δ
∣
x
)
=
E
θ
∣
x
[
L
(
δ
,
θ
)
]
=
∫
Θ
L
(
δ
,
θ
)
d
H
(
θ
∣
x
)
=
∫
Θ
L
(
δ
,
θ
)
π
(
θ
∣
x
)
d
θ
R(\delta|x)=E^{\theta|x}[L(\delta,\theta)]=\int_\Theta L(\delta,\theta)dH(\theta|x)=\int_\Theta L(\delta,\theta)\pi(\theta|x)d\theta
R(δ∣x)=Eθ∣x[L(δ,θ)]=∫ΘL(δ,θ)dH(θ∣x)=∫ΘL(δ,θ)π(θ∣x)dθ
如果存在决策函数
δ
∗
\delta^*
δ∗使得对于任一决策函数
δ
\delta
δ,都有
R
(
δ
∗
∣
x
)
≤
R
(
δ
∣
x
)
R(\delta^*|x)\le R(\delta|x)
R(δ∗∣x)≤R(δ∣x),则称
δ
∗
\delta^*
δ∗是后验风险最小原则下的最优Bayes函数。可以证明,后验风险最小准则下的决策函数就是Bayes解。
接下来讨论损失函数,常见的损失函数有平方损失、加权平方损失、绝对值损失等。
平方损失是 L ( a , θ ) = ( a − θ ) 2 L(a,\theta)=(a-\theta)^2 L(a,θ)=(a−θ)2,在平方损失下, θ \theta θ的Bayes估计是其后验期望。
加权平方损失是
L
(
a
,
θ
)
=
w
(
θ
)
(
a
−
θ
)
2
L(a,\theta)=w(\theta)(a-\theta)^2
L(a,θ)=w(θ)(a−θ)2,在加权平方损失下,
θ
\theta
θ的Bayes估计为
θ
^
B
=
E
(
θ
w
(
θ
)
∣
x
)
E
(
w
(
θ
)
∣
x
)
\hat \theta_B=\frac{E(\theta w(\theta)|x)}{E(w(\theta)|x)}
θ^B=E(w(θ)∣x)E(θw(θ)∣x)
绝对值损失是
L
(
a
,
θ
)
=
∣
a
−
θ
∣
L(a,\theta)=|a-\theta|
L(a,θ)=∣a−θ∣,在绝对值损失下,
θ
\theta
θ的Bayes估计为后验中位数。