贝叶斯意义下的最优

最新推荐文章于 2023-12-30 02:23:32 发布

Turbo-shengsong

最新推荐文章于 2023-12-30 02:23:32 发布

阅读量792

点赞数 1

分类专栏：信息与通信文章标签：概率论线性代数

本文链接：https://blog.csdn.net/weixin_43413559/article/details/124255158

版权

信息与通信专栏收录该内容

22 篇文章 21 订阅

订阅专栏

贝叶斯意义下的最优

定义1(Loss Function): A loss function or cost function $C(\boldsymbol \theta, \boldsymbol a)$ is a scalar-valued function which determines the loss of taking the action $\boldsymbol a$ when the true parameter value is $\boldsymbol \theta$ . The action (or control) is the statistical decision to be made based on the currently available information.

一般地，Utility Function $:U(\boldsymbol \theta, \boldsymbol a)$ 与Loss Function $:C(\boldsymbol \theta, \boldsymbol a)$ 是对应的，它们分别对应奖励和惩罚，因此可以表示为
$C(\boldsymbol \theta, \boldsymbol a) = - U(\boldsymbol \theta, \boldsymbol a)$

如果参数 $\boldsymbol \theta$ 的值未知，关于该参数的信息可以用后验分布 $p(\boldsymbol \theta|\boldsymbol y)$ 表征，那么很自然的一个选择就是要找到最优的 $\boldsymbol a$ ，使得
$\boldsymbol E \left [ C(\boldsymbol \theta, \boldsymbol a) | \boldsymbol y \right ] = \int C(\boldsymbol \theta, \boldsymbol a) p(\boldsymbol \theta|\boldsymbol y) \text {d} \boldsymbol \theta \tag{1}$

最小。即，最小化期望损失(minimum of the expected loss)。

式(1)的由来：以MSE为例说明

这里以MSE为例： $C(\boldsymbol \theta, \boldsymbol a)=(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)$ 来说明，首先呈现两种MSE：经典MSE(Classical MSE)和贝叶斯MSE(Bayes MSE)：

经典MSE：把 $\boldsymbol \theta$ 看作是一个未知但是确定的参数，若估计结果为 $\boldsymbol a$
$\text{Cmse}(\boldsymbol a) = \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y; \boldsymbol \theta) \text{d} \boldsymbol y \tag{2}$
贝叶斯MSE：把 $\boldsymbol \theta$ 看作是一个要估计的随机变量（随机向量），若估计结果为 $\boldsymbol a$
$\text{Bmse}(\boldsymbol a) = \int \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol y, \boldsymbol \theta) \text{d} \boldsymbol y \text{d} \boldsymbol \theta \tag{3}$

注意到，经典MSE与贝叶斯MSE的区别是，前者把 $\boldsymbol \theta$ 看作是一个未知但是确定的参数，后者把 $\boldsymbol \theta$ 看作是一个要估计的随机变量（随机向量），贝叶斯MSE的优势在于它能够利用关于 $\boldsymbol \theta$ 的先验信息（比如可以确定 $\boldsymbol \theta$ 在某个范围内），下面的内容都基于Bmse展开。根据 $p(\boldsymbol y, \boldsymbol \theta)=p(\boldsymbol \theta| \boldsymbol y)p(\boldsymbol y)$ ，我们可以把Bmse写为：
$\text{Bmse}(\boldsymbol a) =\int \left [ \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \tag{4}$

因为 $p(\boldsymbol y) \geq 0$ ，所以，对于每一个给定的 $\boldsymbol y$ ，只需要让 $[\cdot]$ 的值最小，Bmse就是最小的。因此最小化Bmse,即等价于最小化：
$\int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E [(\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)| \boldsymbol y] \tag{5}$
式(5)与式(1)是对应的，也因此验证了(1)的正确性。

最优性说明

需要说明，贝叶斯意义下的最优应是相对于损失函数来描述的。下面我们介绍几种常见的损失函数，以及相应的最优估计 $\boldsymbol a$ 。

（1）MSE: 损失函数为
$C(\boldsymbol \theta, \boldsymbol a) = (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a)$
依据式(4)和式(5)，对于 $[\cdot]$ 的项，令
$\begin{aligned} \frac{\partial }{ \partial \boldsymbol a} \int (\boldsymbol \theta- \boldsymbol a)^T (\boldsymbol \theta- \boldsymbol a) p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta & = \int \frac{\partial }{ \partial \boldsymbol a} {\Vert \boldsymbol a- \boldsymbol \theta \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = \int 2(\boldsymbol a - \boldsymbol \theta) \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 2 \int a \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta - 2 \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \\ & = 0 \\ \Rightarrow a &= \int \boldsymbol \theta \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta = \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \end{aligned}$

因此，从最小化贝叶斯MSE的角度来看，最优估计器就是后验均值： $\mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right]$ ，我们称该估计器为MMSE。此外，MMSE估计器的Bmse可以表征为：
$\begin{aligned} \text{Bmse}(\mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right])& = \int \left [ \int { \Vert \boldsymbol \theta- \mathbb E \left [ \boldsymbol \theta| \boldsymbol y \right] \Vert}^2_2 \cdot p(\boldsymbol \theta| \boldsymbol y) \text{d} \boldsymbol \theta \right] p(\boldsymbol y) \text{d} \boldsymbol y \\ & = \int \text{tr} \left \{ \text{Cov}[\boldsymbol \theta| \boldsymbol y] \right \} \cdot p(\boldsymbol y) \text{d} \boldsymbol y \end{aligned}$

（2）绝对误差(Absolute error): 损失函数为
$C(\boldsymbol \theta, \boldsymbol a) = \sum_{i} |\theta_i - a_i|$

下面的推导我们以标量为例，向量可以直接做推广。类比式(4)中的 $[\cdot]$ 项，若估计结果为 $a$ ，考虑
$\begin{aligned} \int |\theta - a| p( \theta| y )\text{d} \theta & = \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta + \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta \end{aligned}$

要求解上述积分关于 $a$ 的一阶导，利用Leibnitz rule:
$\frac{\partial}{\partial u} \int_{\phi_1(u)}^{\phi_2(u)} h(u,v) \text{d} v = \int_{\phi_1(u)}^{\phi_2(u)} \frac{\partial h(u,v)}{\partial u} \text{d} v + \frac{\text{d} \phi_2(u)}{\text{d} u} h(u,\phi_2(u)) - \frac{\text{d} \phi_1(u)}{\text{d} u} h(u,\phi_1(u))$

令 $u=a,v=\theta,h(u,v)=h(a,\theta)=(a-\theta ) p( \theta| y)$ ，则 $h(u,\phi_2(u))=h(a,a) = (a-a ) p( a| y)=0$ ， $\frac{\text{d} \phi_1(u)}{\text{d} u}=0$ （因为 $\phi_1(u)=-\infty$ 与u无关）。而 $\frac{\partial h(u,v)}{\partial u} = p(\theta|y)$ ，因此化简可以得到
$\frac{\partial}{\partial a} \int_{-\infty}^{a} (a-\theta ) p( \theta| y) \text{d} \theta = \int_{-\infty}^{a} p( \theta| y) \text{d}\theta$

类似地，也可以得到
$\frac{\partial}{\partial a} \int_{a}^{\infty} (\theta - a) p( \theta| y )\text{d} \theta = \int_{a}^{\infty} - p( \theta| y )\text{d} \theta$

不难得到，要让 $\frac{\partial}{\partial a} \int |\theta - a| p( \theta| y )\text{d} \theta = 0$ ，只需令 $a$ 为后验pdf的中值。

因此从最小化绝对误差的角度来看，后验pdf的中值(median of posterior pdf)是最优的。

（3）0-1：损失函数为
$C(\boldsymbol \theta, \boldsymbol a) = - \delta(\boldsymbol a - \boldsymbol \theta)$

对于该损失函数，最优的估计结果为
$\begin{aligned} & \mathop {arg\min} \limits_{\boldsymbol{a}} \int- \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ \Leftrightarrow & \mathop {arg\max} \limits_{\boldsymbol{a}} \int \delta(\boldsymbol a - \boldsymbol \theta) p( \boldsymbol \theta| \boldsymbol y )\text{d} \boldsymbol \theta \\ & \mathop {arg\max} \limits_{\boldsymbol{a}} p(\boldsymbol a| \boldsymbol y ) \end{aligned}$

因此从最小化0-1损失函数的角度来看，后验最大值的估计(Maximum a Posterior, MAP)是最优的。

总结

从最小化贝叶斯MSE的角度来看，MMSE是最优的。
从最小化绝对误差的角度来看，后验pdf的中值(median of posterior pdf)是最优的。
从最小化0-1损失函数的角度来看，MAP是最优的。

补充1：当后验分布为高斯分布时，上述三者是等价的。

补充2：要区分LMMSE(线性MMSE)和MMSE。一般地，LMMSE是次优的，只有当MMSE估计器是线性时，LMMSE才是最优的（此时MMSE与LMMSE等价）。LMMSE的推导过程是尝试在由观测值（观测向量）所张成的线性空间中找到使得Bayes-MSE最小的估计器。从几何的角度看，线性估计的最小误差必然正交于观测值（观测向量）的线性组合（也就是LMMSE正交定理的直观解释）。可以这么理解，MMSE使Bmse总体最小，LMMSE使Bmse在线性空间的张成下最小，因此LMMSE是次优的。