贝叶斯风险

最新推荐文章于 2024-11-26 12:31:52 发布

Remote Sensing

最新推荐文章于 2024-11-26 12:31:52 发布

阅读量1.5k

点赞数 2

分类专栏： math 机器学习文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/rsstudent/article/details/126944091

版权

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

math

17 篇文章

订阅专栏

贝叶斯风险

今天介绍贝叶斯风险。最近读Lehmann的Theory of Point Estimation，读的举步维艰，很多地方还要查资料予以补充才能看懂。

Definition 1. 估计 $\hat{\theta}$ 风险（risk）定义为:
$R(\theta, \hat{\theta})=\mathbb{E}_\theta[L(\theta, \hat{\theta})]=\int_xL(\theta, \hat{\theta})f(x;\theta)dx$
$L(\theta, \hat{\theta})$ 为代价函数，一般选用凸的损失函数，例如平方损失。其中 $\hat{\theta}$ 是估计器， $f(x;\theta)$ 是概率密度函数。

当选用平方损失的时候，风险就是均方误差 $MSE$ ：
$R(\theta, \hat{\theta})=\mathbb{E}_\theta[(\theta-\hat{\theta})^2]$
此时， $R(\theta,\hat{\theta})$ 是参数 $\theta$ 的函数。如果要以 $MSE$ 比为目标寻找一个估计，最直观的想法在 $\theta$ 的每一个点上都达到最小值，称为一致风险最优性准则，这必须在某些限制下进行，例如无偏性。

bayes risks是指如下风险：
$\int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)$
其中， $\Lambda$ 是参数的先验分布函数，满足 $\int d\Lambda(\theta)=1$ 。

我理解的贝叶斯风险，是在参数先验分布的平均意义上估计的均方误差。

Theorem 1. $\theta$ 的先验分布为 $f(\theta)$ ;给定 $\Theta = \theta$ ， $X$ 的分布是 $P_\theta(X)$ ,密度表示为 $f(x|\theta)$ 。若（1）存在一个风险有限的估计 $\delta_0(x)$ ;（2）对（几乎）所有的 $x$ ，都存在 $\delta_{\Lambda}(x)$ ,使得
$\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta$
达到极小值，则 $\delta_{\Lambda}(x)$ 是一个贝叶斯估计(使贝叶斯风险最小的估计)。

证明：
$\begin{aligned} \int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)&=\int_\theta\int_xL(\theta, \delta(x))f(x|\theta)dxf(\theta)d\theta\\ &=\int_x\int_\theta L(\theta, \delta(x))f(\theta|x)d\theta f(x)dx \end{aligned}$
如果能够使得对 $\forall x$ ， $\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta$ 都最小，则 $\mathbb{E}_x[\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta]$ 也最小，从而贝叶斯风险最小。

这个定理导出了对任意给定 $x$ ,应该选择怎样的估计器。

Example 1. 当 $L(\theta,\delta(x))=(\theta-\delta(x))^2$ 时， $\forall x$ ，最小化贝叶斯风险的贝叶斯估计器是
$\delta(x)=E[\theta|x]$
这是后验分布均值。其实当我们用MAP（最大后验估计）时，用的是后验众数，而不是后验均值，因此MAP并不是贝叶斯估计，也就没有最优化贝叶斯风险。