贝叶斯意义下的最优

贝叶斯意义下的最优

定义1(Loss Function): A loss function or cost function C ( θ , a ) C(\boldsymbol \theta, \boldsymbol a) C(θ,a) is a scalar-valued function which determines the loss of taking the action a \boldsymbol a a when the true parameter value is θ \boldsymbol \theta θ. The action (or control) is the statistical decision to be made based on the currently available information.

一般地,Utility Function : U ( θ , a ) :U(\boldsymbol \theta, \boldsymbol a) :U(θ,a)Loss Function : C ( θ , a ) :C(\boldsymbol \theta, \boldsymbol a) :C(θ,a)是对应的,它们分别对应奖励和惩罚,因此可以表示为
C ( θ , a ) = − U ( θ , a ) C(\boldsymbol \theta, \boldsymbol a) = - U(\boldsymbol \theta, \boldsymbol a) C(θ,a)=U(θ,a)

如果参数 θ \boldsymbol \theta θ的值未知,关于该参数的信息可以用后验分布 p ( θ ∣ y ) p(\boldsymbol \theta|\boldsymbol y) p(θy)表征,那么很自然的一个选择就是要找到最优的 a \boldsymbol a a,使得
E [ C ( θ , a ) ∣ y ] = ∫ C ( θ , a ) p ( θ ∣ y ) d θ (1) \boldsymbol E \left [ C(\boldsymbol \theta, \boldsymbol a) | \boldsymbol y \right ] = \int C(\boldsymbol \theta, \boldsymbol a) p(\boldsymbol \theta|\boldsymbol y) \text {d} \boldsymbol \theta \tag{1} E[C(θ,a)y]=C(θ,a)p(θy)dθ(1)

最小。即,最小化期望损失(minimum of the expected loss)。

式(1)的由来:以MSE为例说明

这里以MSE为例: C ( θ , a ) = ( θ − a ) T ( θ − a ) C(\boldsymbol \theta, \boldsymbol a)=(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) C(θ,a)=(θa)T(θa)来说明,首先呈现两种MSE:经典MSE(Classical MSE)和贝叶斯MSE(Bayes MSE):

  • 经典MSE:把 θ \boldsymbol \theta θ看作是一个未知但是确定的参数,若估计结果为 a \boldsymbol a a
    Cmse ( a ) = ∫ ( θ − a ) T ( θ − a ) p ( y ; θ ) d y (2) \text{Cmse}(\boldsymbol a) = \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y; \boldsymbol \theta) \text{d} \boldsymbol y \tag{2} Cmse(a)=(θa)T(θa)p(y;θ)dy(2)

  • 贝叶斯MSE:把 θ \boldsymbol \theta θ看作是一个要估计的随机变量(随机向量),若估计结果为 a \boldsymbol a a
    Bmse ( a ) = ∫ ∫ ( θ − a ) T ( θ − a ) p ( y , θ ) d y d θ (3) \text{Bmse}(\boldsymbol a) = \int \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y, \boldsymbol \theta) \text{d} \boldsymbol y \text{d} \boldsymbol \theta \tag{3} Bmse(a)=(θa)T(θa)p(y,θ)dydθ(3)

注意到,经典MSE与贝叶斯MSE的区别是,前者把 θ \boldsymbol \theta θ看作是一个未知但是确定的参数,后者把 θ \boldsymbol \theta θ看作是一个要估计的随机变量(随机向量),贝叶斯MSE的优势在于它能够利用关于 θ \boldsymbol \theta θ的先验信息(比如可以确定 θ \boldsymbol \theta θ在某个范围内),下面的内容都基于Bmse展开。根据 p ( y , θ ) = p ( θ ∣ y ) p ( y ) p(\boldsymbol y, \boldsymbol \theta)=p(\boldsymbol \theta| \boldsymbol y)p(\boldsymbol y) p(y,θ)=p(θy)p(y),我们可以把Bmse写为:
Bmse ( a ) = ∫ [ ∫ ( θ − a ) T ( θ − a ) p ( θ ∣ y ) d θ ] p ( y ) d y (4) \text{Bmse}(\boldsymbol a) =\int \left [ \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \tag{4} Bmse(a)=[(θa)T(θa)p(θy)dθ]p(y)dy(4)

因为 p ( y ) ≥ 0 p(\boldsymbol y) \geq 0 p(y)0,所以,对于每一个给定的 y \boldsymbol y y,只需要让 [ ⋅ ] [\cdot] []的值最小,Bmse就是最小的。因此最小化Bmse,即等价于最小化:
∫ ( θ − a ) T ( θ − a ) p ( θ ∣ y ) d θ = E [ ( θ − a ) T ( θ − a ) ∣ y ] (5) \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E [(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)| \boldsymbol y] \tag{5} (θa)T(θa)p(θy)dθ=E[(θa)T(θa)y](5)
式(5)与式(1)是对应的,也因此验证了(1)的正确性。

最优性说明

需要说明,贝叶斯意义下的最优应是相对于损失函数来描述的。下面我们介绍几种常见的损失函数,以及相应的最优估计 a \boldsymbol a a

(1)MSE: 损失函数为
C ( θ , a ) = ( θ − a ) T ( θ − a ) C(\boldsymbol \theta, \boldsymbol a) = (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) C(θ,a)=(θa)T(θa)
依据式(4)和式(5),对于 [ ⋅ ] [\cdot] []的项,令
∂ ∂ a ∫ ( θ − a ) T ( θ − a ) p ( θ ∣ y ) d θ = ∫ ∂ ∂ a ∥ a − θ ∥ 2 2 ⋅ p ( θ ∣ y ) d θ = ∫ 2 ( a − θ ) ⋅ p ( θ ∣ y ) d θ = 2 ∫ a ⋅ p ( θ ∣ y ) d θ − 2 ∫ θ ⋅ p ( θ ∣ y ) d θ = 0 ⇒ a = ∫ θ ⋅ p ( θ ∣ y ) d θ = E [ θ ∣ y ] \begin{aligned} \frac{\partial }{ \partial \boldsymbol a} \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta & = \int \frac{\partial }{ \partial \boldsymbol a} {\Vert \boldsymbol a- \boldsymbol \theta \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = \int 2(\boldsymbol a - \boldsymbol \theta) \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 2 \int a \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta - 2 \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 0 \\ \Rightarrow a &= \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \end{aligned} a(θa)T(θa)p(θy)dθa=aaθ22p(θy)dθ=2(aθ)p(θy)dθ=2ap(θy)dθ2θp(θy)dθ=0=θp(θy)dθ=E[θy]

因此,从最小化贝叶斯MSE的角度来看,最优估计器就是后验均值: E [ θ ∣ y ] \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] E[θy],我们称该估计器为MMSE。此外,MMSE估计器的Bmse可以表征为:
Bmse ( E [ θ ∣ y ] ) = ∫ [ ∫ ∥ θ − E [ θ ∣ y ] ∥ 2 2 ⋅ p ( θ ∣ y ) d θ ] p ( y ) d y = ∫ tr { Cov [ θ ∣ y ] } ⋅ p ( y ) d y \begin{aligned} \text{Bmse}(\mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right])& = \int \left [ \int { \Vert \boldsymbol \theta- \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \\ & = \int \text{tr} \left \{ \text{Cov}[\boldsymbol \theta| \boldsymbol y] \right \} \cdot p(\boldsymbol y) \text{d} \boldsymbol y \end{aligned} Bmse(E[θy])=[θE[θy]22p(θy)dθ]p(y)dy=tr{Cov[θy]}p(y)dy

(2)绝对误差(Absolute error): 损失函数为
C ( θ , a ) = ∑ i ∣ θ i − a i ∣ C(\boldsymbol \theta, \boldsymbol a) = \sum_{i} |\theta_i - a_i| C(θ,a)=iθiai

下面的推导我们以标量为例,向量可以直接做推广。类比式(4)中的 [ ⋅ ] [\cdot] []项,若估计结果为 a a a,考虑
∫ ∣ θ − a ∣ p ( θ ∣ y ) d θ = ∫ − ∞ a ( a − θ ) p ( θ ∣ y ) d θ + ∫ a ∞ ( θ − a ) p ( θ ∣ y ) d θ \begin{aligned} \int |\theta - a| p( \theta| y )\text{d} \theta & = \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta + \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta \end{aligned} θap(θy)dθ=a(aθ)p(θy)dθ+a(θa)p(θy)dθ

要求解上述积分关于 a a a的一阶导,利用Leibnitz rule:
∂ ∂ u ∫ ϕ 1 ( u ) ϕ 2 ( u ) h ( u , v ) d v = ∫ ϕ 1 ( u ) ϕ 2 ( u ) ∂ h ( u , v ) ∂ u d v + d ϕ 2 ( u ) d u h ( u , ϕ 2 ( u ) ) − d ϕ 1 ( u ) d u h ( u , ϕ 1 ( u ) ) \frac{\partial}{\partial u} \int_{\phi_1(u)}^{\phi_2(u)} h(u,v) \text{d} v = \int_{\phi_1(u)}^{\phi_2(u)} \frac{\partial h(u,v)}{\partial u} \text{d} v + \frac{\text{d} \phi_2(u)}{\text{d} u} h(u,\phi_2(u)) - \frac{\text{d} \phi_1(u)}{\text{d} u} h(u,\phi_1(u)) uϕ1(u)ϕ2(u)h(u,v)dv=ϕ1(u)ϕ2(u)uh(u,v)dv+dudϕ2(u)h(u,ϕ2(u))dudϕ1(u)h(u,ϕ1(u))

u = a , v = θ , h ( u , v ) = h ( a , θ ) = ( a − θ ) p ( θ ∣ y ) u=a,v=\theta,h(u,v)=h(a,\theta)=(a-\theta ) p( \theta| y) u=a,v=θ,h(u,v)=h(a,θ)=(aθ)p(θy),则 h ( u , ϕ 2 ( u ) ) = h ( a , a ) = ( a − a ) p ( a ∣ y ) = 0 h(u,\phi_2(u))=h(a,a) = (a-a ) p( a| y)=0 h(u,ϕ2(u))=h(a,a)=(aa)p(ay)=0 d ϕ 1 ( u ) d u = 0 \frac{\text{d} \phi_1(u)}{\text{d} u}=0 dudϕ1(u)=0(因为 ϕ 1 ( u ) = − ∞ \phi_1(u)=-\infty ϕ1(u)=与u无关)。而 ∂ h ( u , v ) ∂ u = p ( θ ∣ y ) \frac{\partial h(u,v)}{\partial u} = p(\theta|y) uh(u,v)=p(θy),因此化简可以得到
∂ ∂ a ∫ − ∞ a ( a − θ ) p ( θ ∣ y ) d θ = ∫ − ∞ a p ( θ ∣ y ) d θ \frac{\partial}{\partial a} \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta = \int_{-\infty}^{a} p( \theta| y) \text{d}\theta aa(aθ)p(θy)dθ=ap(θy)dθ

类似地,也可以得到
∂ ∂ a ∫ a ∞ ( θ − a ) p ( θ ∣ y ) d θ = ∫ a ∞ − p ( θ ∣ y ) d θ \frac{\partial}{\partial a} \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta = \int_{a}^{\infty} - p( \theta| y )\text{d} \theta aa(θa)p(θy)dθ=ap(θy)dθ

不难得到,要让 ∂ ∂ a ∫ ∣ θ − a ∣ p ( θ ∣ y ) d θ = 0 \frac{\partial}{\partial a} \int |\theta - a| p( \theta| y )\text{d} \theta = 0 aθap(θy)dθ=0,只需令 a a a为后验pdf的中值。

因此从最小化绝对误差的角度来看,后验pdf的中值(median of posterior pdf)是最优的。

(3)0-1:损失函数为
C ( θ , a ) = − δ ( a − θ ) C(\boldsymbol \theta, \boldsymbol a) = - \delta(\boldsymbol a - \boldsymbol \theta) C(θ,a)=δ(aθ)

对于该损失函数,最优的估计结果为
a r g min ⁡ a ∫ − δ ( a − θ ) p ( θ ∣ y ) d θ ⇔ a r g max ⁡ a ∫ δ ( a − θ ) p ( θ ∣ y ) d θ a r g max ⁡ a p ( a ∣ y ) \begin{aligned} & \mathop {arg\min} \limits_{\boldsymbol{a}} \int- \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ \Leftrightarrow & \mathop {arg\max} \limits_{\boldsymbol{a}} \int \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ & \mathop {arg\max} \limits_{\boldsymbol{a}} p(\boldsymbol a| \boldsymbol y ) \end{aligned} aargminδ(aθ)p(θy)dθaargmaxδ(aθ)p(θy)dθaargmaxp(ay)

因此从最小化0-1损失函数的角度来看,后验最大值的估计(Maximum a Posterior, MAP)是最优的。

总结

  • 从最小化贝叶斯MSE的角度来看,MMSE是最优的。
  • 从最小化绝对误差的角度来看,后验pdf的中值(median of posterior pdf)是最优的。
  • 从最小化0-1损失函数的角度来看,MAP是最优的。

补充1:当后验分布为高斯分布时,上述三者是等价的。

补充2:要区分LMMSE(线性MMSE)和MMSE。一般地,LMMSE是次优的,只有当MMSE估计器是线性时,LMMSE才是最优的(此时MMSE与LMMSE等价)。LMMSE的推导过程是尝试在由观测值(观测向量)所张成的线性空间中找到使得Bayes-MSE最小的估计器。从几何的角度看,线性估计的最小误差必然正交于观测值(观测向量)的线性组合(也就是LMMSE正交定理的直观解释)。可以这么理解,MMSE使Bmse总体最小,LMMSE使Bmse在线性空间的张成下最小,因此LMMSE是次优的。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值