贝叶斯决策与贝叶斯参数估计

最新推荐文章于 2024-07-27 10:31:18 发布

qiusuoxiaozi

最新推荐文章于 2024-07-27 10:31:18 发布

阅读量4.9k

点赞数 1

分类专栏： machine learning

本文链接：https://blog.csdn.net/qiusuoxiaozi/article/details/54376989

版权

machine learning 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

1/11/2017 11:02:08 PM

考试结束了

重新看了一下贝叶斯参数估计（极大似然参数估计思想很简单，不用多说了），感觉贝叶斯参数估计真是内涵很深啊！下面两张ppt务必完全每一行都看懂（刘老师的PPT确实做得好啊）

第二张PPT讲得很清楚了，关于贝叶斯参数估计的基本条件和步骤。需要注意的的是p(x|θ)表示的是参数θ给定时，x（也就是数据）的一般分布；而p(D|θ)则表示实际上生成手上这些数据（也就是D）的概率是多少，计算方法就是利用贝叶斯公式。

此后，我们利用手头的数据D推断出θ的分布（注意，虽然贝叶斯分布基本条件有一条是已知p(θ)的先验分布，但是不同的是，这里是在得知手上数据D的情况下推断p(θ|D)）。再得知p(θ|D)之后就可以用来积分求p(x|D)了，而p(x|D)正是最终得到的结果，也就是利用手上的数据D通过贝叶斯估计得到的数据x的概率密度。

这就是贝叶斯估计的介绍，从整个过程来看，贝叶斯参数估计似乎并不是奔着参数估计去的（不像极大似然参数估计那么直接，通过解最优化问题就得到了估计的参数），贝叶斯参数估计更像是奔着p(x|D)去的，也就是说，它估计的是整个分布，而不只是参数，因为分布的形式不知道的，谁也不知道利用p(θ|D)积分得到的p(x|D)是怎么个形式，所以当然不能奔着参数估计去了。用估计完得到的p(x|D)和极大似然估计得到的概率密度估计对比，就可以看到，一维高斯的时候，两种估计得到的结果确实不同

深奥的贝叶斯估计啊！

比起上面的贝叶斯估计，贝叶斯决策还是相对比较简单的，当风险是0-1 loss（或者说分类错误率时），贝叶斯决策等价于最大化后验概率。贝叶斯决策也有基本条件，整个看下面这个图就可以了

贝叶斯决策确实是最优的（可以最小化风险，如果风险是0-1 loss则最小化错误率，见下图），只不过限于当前的特征空间。

为什么只限于当前特征空间，我在模式的QQ群里面和一位同学有过讨论，他的回答间接地让我顿悟了。其实可以从上图来理解，上面倒数第二个图中，贝叶斯决策通过最小化错误率（或者说最大化后验概率）会找到分界面为 $x_a$ ，这么一来，错误率的大小就相当于 $x_a$ 两边的两个“尾巴”（左右两个类似直角三角形的阴影部分，注意，不包括reducible error，贝叶斯决策正是把这个error reduce了）。然而，这个错误率是在x这个特征空间的，谁也不能保证说，也许可以变换一下特征（比如构造多项式的特征等等），这样一来，通过贝叶斯决策后，得到的阴影部分的面积没准就可以变小，这是很有可能的（如果能构造出非常discriminating的特征）。