贝叶斯风险
今天介绍贝叶斯风险。最近读Lehmann的Theory of Point Estimation,读的举步维艰,很多地方还要查资料予以补充才能看懂。
Definition 1. 估计
θ
^
\hat{\theta}
θ^风险(risk)定义为:
R
(
θ
,
θ
^
)
=
E
θ
[
L
(
θ
,
θ
^
)
]
=
∫
x
L
(
θ
,
θ
^
)
f
(
x
;
θ
)
d
x
R(\theta, \hat{\theta})=\mathbb{E}_\theta[L(\theta, \hat{\theta})]=\int_xL(\theta, \hat{\theta})f(x;\theta)dx
R(θ,θ^)=Eθ[L(θ,θ^)]=∫xL(θ,θ^)f(x;θ)dx
L
(
θ
,
θ
^
)
L(\theta, \hat{\theta})
L(θ,θ^)为代价函数,一般选用凸的损失函数,例如平方损失。其中
θ
^
\hat{\theta}
θ^是估计器,
f
(
x
;
θ
)
f(x;\theta)
f(x;θ)是概率密度函数。
当选用平方损失的时候,风险就是均方误差
M
S
E
MSE
MSE:
R
(
θ
,
θ
^
)
=
E
θ
[
(
θ
−
θ
^
)
2
]
R(\theta, \hat{\theta})=\mathbb{E}_\theta[(\theta-\hat{\theta})^2]
R(θ,θ^)=Eθ[(θ−θ^)2]
此时,
R
(
θ
,
θ
^
)
R(\theta,\hat{\theta})
R(θ,θ^)是参数
θ
\theta
θ的函数。如果要以
M
S
E
MSE
MSE比为目标寻找一个估计,最直观的想法在
θ
\theta
θ的每一个点上都达到最小值,称为一致风险最优性准则,这必须在某些限制下进行,例如无偏性。
bayes risks是指如下风险:
∫
Θ
R
(
θ
,
θ
^
)
d
Λ
(
θ
)
\int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)
∫ΘR(θ,θ^)dΛ(θ)
其中,
Λ
\Lambda
Λ是参数的先验分布函数,满足
∫
d
Λ
(
θ
)
=
1
\int d\Lambda(\theta)=1
∫dΛ(θ)=1。
我理解的贝叶斯风险,是在参数先验分布的平均意义上估计的均方误差。
Theorem 1.
θ
\theta
θ的先验分布为
f
(
θ
)
f(\theta)
f(θ);给定
Θ
=
θ
\Theta = \theta
Θ=θ,
X
X
X的分布是
P
θ
(
X
)
P_\theta(X)
Pθ(X),密度表示为
f
(
x
∣
θ
)
f(x|\theta)
f(x∣θ)。若(1)存在一个风险有限的估计
δ
0
(
x
)
\delta_0(x)
δ0(x);(2)对(几乎)所有的
x
x
x,都存在
δ
Λ
(
x
)
\delta_{\Lambda}(x)
δΛ(x),使得
∫
θ
L
(
θ
,
θ
^
)
f
(
θ
∣
x
)
d
θ
\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta
∫θL(θ,θ^)f(θ∣x)dθ
达到极小值,则
δ
Λ
(
x
)
\delta_{\Lambda}(x)
δΛ(x)是一个贝叶斯估计(使贝叶斯风险最小的估计)。
证明:
∫
Θ
R
(
θ
,
θ
^
)
d
Λ
(
θ
)
=
∫
θ
∫
x
L
(
θ
,
δ
(
x
)
)
f
(
x
∣
θ
)
d
x
f
(
θ
)
d
θ
=
∫
x
∫
θ
L
(
θ
,
δ
(
x
)
)
f
(
θ
∣
x
)
d
θ
f
(
x
)
d
x
\begin{aligned} \int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)&=\int_\theta\int_xL(\theta, \delta(x))f(x|\theta)dxf(\theta)d\theta\\ &=\int_x\int_\theta L(\theta, \delta(x))f(\theta|x)d\theta f(x)dx \end{aligned}
∫ΘR(θ,θ^)dΛ(θ)=∫θ∫xL(θ,δ(x))f(x∣θ)dxf(θ)dθ=∫x∫θL(θ,δ(x))f(θ∣x)dθf(x)dx
如果能够使得对
∀
x
\forall x
∀x,
∫
θ
L
(
θ
,
θ
^
)
f
(
θ
∣
x
)
d
θ
\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta
∫θL(θ,θ^)f(θ∣x)dθ都最小,则
E
x
[
∫
θ
L
(
θ
,
θ
^
)
f
(
θ
∣
x
)
d
θ
]
\mathbb{E}_x[\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta]
Ex[∫θL(θ,θ^)f(θ∣x)dθ]也最小,从而贝叶斯风险最小。
这个定理导出了对任意给定 x x x,应该选择怎样的估计器。
Example 1. 当
L
(
θ
,
δ
(
x
)
)
=
(
θ
−
δ
(
x
)
)
2
L(\theta,\delta(x))=(\theta-\delta(x))^2
L(θ,δ(x))=(θ−δ(x))2时,
∀
x
\forall x
∀x,最小化贝叶斯风险的贝叶斯估计器是
δ
(
x
)
=
E
[
θ
∣
x
]
\delta(x)=E[\theta|x]
δ(x)=E[θ∣x]
这是后验分布均值。其实当我们用MAP(最大后验估计)时,用的是后验众数,而不是后验均值,因此MAP并不是贝叶斯估计,也就没有最优化贝叶斯风险。