贝叶斯意义下的最优
定义1(Loss Function): A loss function or cost function C ( θ , a ) C(\boldsymbol \theta, \boldsymbol a) C(θ,a) is a scalar-valued function which determines the loss of taking the action a \boldsymbol a a when the true parameter value is θ \boldsymbol \theta θ. The action (or control) is the statistical decision to be made based on the currently available information.
一般地,Utility Function
:
U
(
θ
,
a
)
:U(\boldsymbol \theta, \boldsymbol a)
:U(θ,a)与Loss Function
:
C
(
θ
,
a
)
:C(\boldsymbol \theta, \boldsymbol a)
:C(θ,a)是对应的,它们分别对应奖励和惩罚,因此可以表示为
C
(
θ
,
a
)
=
−
U
(
θ
,
a
)
C(\boldsymbol \theta, \boldsymbol a) = - U(\boldsymbol \theta, \boldsymbol a)
C(θ,a)=−U(θ,a)
如果参数
θ
\boldsymbol \theta
θ的值未知,关于该参数的信息可以用后验分布
p
(
θ
∣
y
)
p(\boldsymbol \theta|\boldsymbol y)
p(θ∣y)表征,那么很自然的一个选择就是要找到最优的
a
\boldsymbol a
a,使得
E
[
C
(
θ
,
a
)
∣
y
]
=
∫
C
(
θ
,
a
)
p
(
θ
∣
y
)
d
θ
(1)
\boldsymbol E \left [ C(\boldsymbol \theta, \boldsymbol a) | \boldsymbol y \right ] = \int C(\boldsymbol \theta, \boldsymbol a) p(\boldsymbol \theta|\boldsymbol y) \text {d} \boldsymbol \theta \tag{1}
E[C(θ,a)∣y]=∫C(θ,a)p(θ∣y)dθ(1)
最小。即,最小化期望损失(minimum of the expected loss)。
式(1)的由来:以MSE为例说明
这里以MSE为例: C ( θ , a ) = ( θ − a ) T ( θ − a ) C(\boldsymbol \theta, \boldsymbol a)=(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) C(θ,a)=(θ−a)T(θ−a)来说明,首先呈现两种MSE:经典MSE(Classical MSE)和贝叶斯MSE(Bayes MSE):
-
经典MSE:把 θ \boldsymbol \theta θ看作是一个未知但是确定的参数,若估计结果为 a \boldsymbol a a
Cmse ( a ) = ∫ ( θ − a ) T ( θ − a ) p ( y ; θ ) d y (2) \text{Cmse}(\boldsymbol a) = \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y; \boldsymbol \theta) \text{d} \boldsymbol y \tag{2} Cmse(a)=∫(θ−a)T(θ−a)p(y;θ)dy(2) -
贝叶斯MSE:把 θ \boldsymbol \theta θ看作是一个要估计的随机变量(随机向量),若估计结果为 a \boldsymbol a a
Bmse ( a ) = ∫ ∫ ( θ − a ) T ( θ − a ) p ( y , θ ) d y d θ (3) \text{Bmse}(\boldsymbol a) = \int \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y, \boldsymbol \theta) \text{d} \boldsymbol y \text{d} \boldsymbol \theta \tag{3} Bmse(a)=∫∫(θ−a)T(θ−a)p(y,θ)dydθ(3)
注意到,经典MSE与贝叶斯MSE的区别是,前者把
θ
\boldsymbol \theta
θ看作是一个未知但是确定的参数,后者把
θ
\boldsymbol \theta
θ看作是一个要估计的随机变量(随机向量),贝叶斯MSE的优势在于它能够利用关于
θ
\boldsymbol \theta
θ的先验信息(比如可以确定
θ
\boldsymbol \theta
θ在某个范围内),下面的内容都基于Bmse展开。根据
p
(
y
,
θ
)
=
p
(
θ
∣
y
)
p
(
y
)
p(\boldsymbol y, \boldsymbol \theta)=p(\boldsymbol \theta| \boldsymbol y)p(\boldsymbol y)
p(y,θ)=p(θ∣y)p(y),我们可以把Bmse写为:
Bmse
(
a
)
=
∫
[
∫
(
θ
−
a
)
T
(
θ
−
a
)
p
(
θ
∣
y
)
d
θ
]
p
(
y
)
d
y
(4)
\text{Bmse}(\boldsymbol a) =\int \left [ \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \tag{4}
Bmse(a)=∫[∫(θ−a)T(θ−a)p(θ∣y)dθ]p(y)dy(4)
因为
p
(
y
)
≥
0
p(\boldsymbol y) \geq 0
p(y)≥0,所以,对于每一个给定的
y
\boldsymbol y
y,只需要让
[
⋅
]
[\cdot]
[⋅]的值最小,Bmse就是最小的。因此最小化Bmse,即等价于最小化:
∫
(
θ
−
a
)
T
(
θ
−
a
)
p
(
θ
∣
y
)
d
θ
=
E
[
(
θ
−
a
)
T
(
θ
−
a
)
∣
y
]
(5)
\int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E [(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)| \boldsymbol y] \tag{5}
∫(θ−a)T(θ−a)p(θ∣y)dθ=E[(θ−a)T(θ−a)∣y](5)
式(5)与式(1)是对应的,也因此验证了(1)的正确性。
最优性说明
需要说明,贝叶斯意义下的最优应是相对于损失函数来描述的。下面我们介绍几种常见的损失函数,以及相应的最优估计 a \boldsymbol a a。
(1)MSE: 损失函数为
C
(
θ
,
a
)
=
(
θ
−
a
)
T
(
θ
−
a
)
C(\boldsymbol \theta, \boldsymbol a) = (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)
C(θ,a)=(θ−a)T(θ−a)
依据式(4)和式(5),对于
[
⋅
]
[\cdot]
[⋅]的项,令
∂
∂
a
∫
(
θ
−
a
)
T
(
θ
−
a
)
p
(
θ
∣
y
)
d
θ
=
∫
∂
∂
a
∥
a
−
θ
∥
2
2
⋅
p
(
θ
∣
y
)
d
θ
=
∫
2
(
a
−
θ
)
⋅
p
(
θ
∣
y
)
d
θ
=
2
∫
a
⋅
p
(
θ
∣
y
)
d
θ
−
2
∫
θ
⋅
p
(
θ
∣
y
)
d
θ
=
0
⇒
a
=
∫
θ
⋅
p
(
θ
∣
y
)
d
θ
=
E
[
θ
∣
y
]
\begin{aligned} \frac{\partial }{ \partial \boldsymbol a} \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta & = \int \frac{\partial }{ \partial \boldsymbol a} {\Vert \boldsymbol a- \boldsymbol \theta \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = \int 2(\boldsymbol a - \boldsymbol \theta) \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 2 \int a \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta - 2 \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 0 \\ \Rightarrow a &= \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \end{aligned}
∂a∂∫(θ−a)T(θ−a)p(θ∣y)dθ⇒a=∫∂a∂∥a−θ∥22⋅p(θ∣y)dθ=∫2(a−θ)⋅p(θ∣y)dθ=2∫a⋅p(θ∣y)dθ−2∫θ⋅p(θ∣y)dθ=0=∫θ⋅p(θ∣y)dθ=E[θ∣y]
因此,从最小化贝叶斯MSE的角度来看,最优估计器就是后验均值:
E
[
θ
∣
y
]
\mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right]
E[θ∣y],我们称该估计器为MMSE。此外,MMSE估计器的Bmse可以表征为:
Bmse
(
E
[
θ
∣
y
]
)
=
∫
[
∫
∥
θ
−
E
[
θ
∣
y
]
∥
2
2
⋅
p
(
θ
∣
y
)
d
θ
]
p
(
y
)
d
y
=
∫
tr
{
Cov
[
θ
∣
y
]
}
⋅
p
(
y
)
d
y
\begin{aligned} \text{Bmse}(\mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right])& = \int \left [ \int { \Vert \boldsymbol \theta- \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \\ & = \int \text{tr} \left \{ \text{Cov}[\boldsymbol \theta| \boldsymbol y] \right \} \cdot p(\boldsymbol y) \text{d} \boldsymbol y \end{aligned}
Bmse(E[θ∣y])=∫[∫∥θ−E[θ∣y]∥22⋅p(θ∣y)dθ]p(y)dy=∫tr{Cov[θ∣y]}⋅p(y)dy
(2)绝对误差(Absolute error): 损失函数为
C
(
θ
,
a
)
=
∑
i
∣
θ
i
−
a
i
∣
C(\boldsymbol \theta, \boldsymbol a) = \sum_{i} |\theta_i - a_i|
C(θ,a)=i∑∣θi−ai∣
下面的推导我们以标量为例,向量可以直接做推广。类比式(4)中的
[
⋅
]
[\cdot]
[⋅]项,若估计结果为
a
a
a,考虑
∫
∣
θ
−
a
∣
p
(
θ
∣
y
)
d
θ
=
∫
−
∞
a
(
a
−
θ
)
p
(
θ
∣
y
)
d
θ
+
∫
a
∞
(
θ
−
a
)
p
(
θ
∣
y
)
d
θ
\begin{aligned} \int |\theta - a| p( \theta| y )\text{d} \theta & = \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta + \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta \end{aligned}
∫∣θ−a∣p(θ∣y)dθ=∫−∞a(a−θ)p(θ∣y)dθ+∫a∞(θ−a)p(θ∣y)dθ
要求解上述积分关于
a
a
a的一阶导,利用Leibnitz rule:
∂
∂
u
∫
ϕ
1
(
u
)
ϕ
2
(
u
)
h
(
u
,
v
)
d
v
=
∫
ϕ
1
(
u
)
ϕ
2
(
u
)
∂
h
(
u
,
v
)
∂
u
d
v
+
d
ϕ
2
(
u
)
d
u
h
(
u
,
ϕ
2
(
u
)
)
−
d
ϕ
1
(
u
)
d
u
h
(
u
,
ϕ
1
(
u
)
)
\frac{\partial}{\partial u} \int_{\phi_1(u)}^{\phi_2(u)} h(u,v) \text{d} v = \int_{\phi_1(u)}^{\phi_2(u)} \frac{\partial h(u,v)}{\partial u} \text{d} v + \frac{\text{d} \phi_2(u)}{\text{d} u} h(u,\phi_2(u)) - \frac{\text{d} \phi_1(u)}{\text{d} u} h(u,\phi_1(u))
∂u∂∫ϕ1(u)ϕ2(u)h(u,v)dv=∫ϕ1(u)ϕ2(u)∂u∂h(u,v)dv+dudϕ2(u)h(u,ϕ2(u))−dudϕ1(u)h(u,ϕ1(u))
令
u
=
a
,
v
=
θ
,
h
(
u
,
v
)
=
h
(
a
,
θ
)
=
(
a
−
θ
)
p
(
θ
∣
y
)
u=a,v=\theta,h(u,v)=h(a,\theta)=(a-\theta ) p( \theta| y)
u=a,v=θ,h(u,v)=h(a,θ)=(a−θ)p(θ∣y),则
h
(
u
,
ϕ
2
(
u
)
)
=
h
(
a
,
a
)
=
(
a
−
a
)
p
(
a
∣
y
)
=
0
h(u,\phi_2(u))=h(a,a) = (a-a ) p( a| y)=0
h(u,ϕ2(u))=h(a,a)=(a−a)p(a∣y)=0,
d
ϕ
1
(
u
)
d
u
=
0
\frac{\text{d} \phi_1(u)}{\text{d} u}=0
dudϕ1(u)=0(因为
ϕ
1
(
u
)
=
−
∞
\phi_1(u)=-\infty
ϕ1(u)=−∞与u无关)。而
∂
h
(
u
,
v
)
∂
u
=
p
(
θ
∣
y
)
\frac{\partial h(u,v)}{\partial u} = p(\theta|y)
∂u∂h(u,v)=p(θ∣y),因此化简可以得到
∂
∂
a
∫
−
∞
a
(
a
−
θ
)
p
(
θ
∣
y
)
d
θ
=
∫
−
∞
a
p
(
θ
∣
y
)
d
θ
\frac{\partial}{\partial a} \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta = \int_{-\infty}^{a} p( \theta| y) \text{d}\theta
∂a∂∫−∞a(a−θ)p(θ∣y)dθ=∫−∞ap(θ∣y)dθ
类似地,也可以得到
∂
∂
a
∫
a
∞
(
θ
−
a
)
p
(
θ
∣
y
)
d
θ
=
∫
a
∞
−
p
(
θ
∣
y
)
d
θ
\frac{\partial}{\partial a} \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta = \int_{a}^{\infty} - p( \theta| y )\text{d} \theta
∂a∂∫a∞(θ−a)p(θ∣y)dθ=∫a∞−p(θ∣y)dθ
不难得到,要让 ∂ ∂ a ∫ ∣ θ − a ∣ p ( θ ∣ y ) d θ = 0 \frac{\partial}{\partial a} \int |\theta - a| p( \theta| y )\text{d} \theta = 0 ∂a∂∫∣θ−a∣p(θ∣y)dθ=0,只需令 a a a为后验pdf的中值。
因此从最小化绝对误差的角度来看,后验pdf的中值(median of posterior pdf)是最优的。
(3)0-1:损失函数为
C
(
θ
,
a
)
=
−
δ
(
a
−
θ
)
C(\boldsymbol \theta, \boldsymbol a) = - \delta(\boldsymbol a - \boldsymbol \theta)
C(θ,a)=−δ(a−θ)
对于该损失函数,最优的估计结果为
a
r
g
min
a
∫
−
δ
(
a
−
θ
)
p
(
θ
∣
y
)
d
θ
⇔
a
r
g
max
a
∫
δ
(
a
−
θ
)
p
(
θ
∣
y
)
d
θ
a
r
g
max
a
p
(
a
∣
y
)
\begin{aligned} & \mathop {arg\min} \limits_{\boldsymbol{a}} \int- \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ \Leftrightarrow & \mathop {arg\max} \limits_{\boldsymbol{a}} \int \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ & \mathop {arg\max} \limits_{\boldsymbol{a}} p(\boldsymbol a| \boldsymbol y ) \end{aligned}
⇔aargmin∫−δ(a−θ)p(θ∣y)dθaargmax∫δ(a−θ)p(θ∣y)dθaargmaxp(a∣y)
因此从最小化0-1损失函数的角度来看,后验最大值的估计(Maximum a Posterior, MAP)是最优的。
总结
- 从最小化贝叶斯MSE的角度来看,MMSE是最优的。
- 从最小化绝对误差的角度来看,后验pdf的中值(median of posterior pdf)是最优的。
- 从最小化0-1损失函数的角度来看,MAP是最优的。
补充1:当后验分布为高斯分布时,上述三者是等价的。
补充2:要区分LMMSE(线性MMSE)和MMSE。一般地,LMMSE是次优的,只有当MMSE估计器是线性时,LMMSE才是最优的(此时MMSE与LMMSE等价)。LMMSE的推导过程是尝试在由观测值(观测向量)所张成的线性空间中找到使得Bayes-MSE最小的估计器。从几何的角度看,线性估计的最小误差必然正交于观测值(观测向量)的线性组合(也就是LMMSE正交定理的直观解释)。可以这么理解,MMSE使Bmse总体最小,LMMSE使Bmse在线性空间的张成下最小,因此LMMSE是次优的。