最小错误率贝叶斯决策的基本思想_CS189笔记｜Lecture 6：Decision Theory 贝叶斯决策论...

最新推荐文章于 2024-07-28 21:00:50 发布

weixin_31857829

最新推荐文章于 2024-07-28 21:00:50 发布

阅读量561

点赞数

文章标签：最小错误率贝叶斯决策的基本思想

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31857829/article/details/112160268

版权

本文介绍了最小错误率的贝叶斯决策理论，通过一个癌症诊断的例子阐述了损失函数的重要性。讨论了0-1损失函数、决策规则和贝叶斯决策规则，并解释了如何在连续型概率分布下制定决策边界。还比较了生成模型（如LDA）、判别模型（如logistic回归）和寻找决策边界（如SVM）三种分类器构建方法的优缺点。

摘要由CSDN通过智能技术生成

贝叶斯理论

栗子：假设某人群中10%的人患有癌症，90%的人没有癌症，并且它们卡路里摄入的离散概率分布

如下：

请不要把表中的数据当作医学参考

Q：有一个人每日摄入卡路里X=1400，猜测他是否患有癌症？

直接由表中的

。得出此人患有癌症的结论是不合理的，因为我们没有考虑到患癌症的人本身很少的因素（即先验概率prior probability）。

A：首先我们计算

，由全概率公式：

进而由贝叶斯理论(Bayes' Theorem)得出：

因此，

，故不应得出此人患有癌症的结论。

被称作后验概率(posterior probability)

损失函数

但是... 将一个"癌症患者"误诊为没有癌症（False Negative）比将一个"没有癌症的人"误诊为癌症患者(False Positive)的代价往往要大的多。因为对于前者，患者可能由于误诊耽误治疗；而对于后者，代价可能只是"患者"需要多花些钱做更详细的检查。因此，我们可能不能根据

而简单地得出此人没有癌症的结论。

损失函数(Loss Function)

定义了如果分类器预测结果为

，而真实类别为

的情况下的损失，例如：

显然，36%的概率损失5比64%的概率损失1要更糟糕，因此我们应该建议患者进行进一步的检查。

一些定义

上文的损失函数是非对称的(asymmetrical)

2. 0-1损失函数定义为

3. 决策规则「decision rule」（又名分类器「classifier」）定义为

即决策规则

是一个映射，它将特征向量

映射为1（属于这个类）或-1（不属于这个类）

4.

的风险「risk」是损失的数学期望，即

，其有两种展开方式，且各有用途：

5. 贝叶斯决策规则「Bayes decision rule」（也称作贝叶斯分类器「Bayes classifier」）是最小化

的函数

假设

时，

，那么有：

显然，由上式可以得出，如果

是对称的（symmetric），我们可以直接选择后验概率最大的类别作为预测结果！

在最开始的例子中，如果

，

；如果

，

6. 贝叶斯风险「Bayes risk」，又称最优化风险「optimal risk」是贝叶斯分类器的风险

由(2)式可以很容易地计算出，在癌症的例子中，

7. 推导

的过程叫做风险最小化。

连续型概率分布的情况

假设在之前的例子中，

有一个连续概率密度函数「continuous probability density function, PDF」

如果我们将上图中两条曲线的交界点作为决策边界「decision boundary」，我们就犯了和之前一样的错误，即没有考虑先验概率。

假设

，且我们使用0-1损失函数

为了最大化正确预测的概率，贝叶斯决策规则在上图中选择概率值最高的曲线，即在决策边界的左侧选择患有癌症，在决策边界的右侧选择没有癌症。

我们可以和之前一样定义风险「risk」，区别只是将求和符号改为积分

对于贝叶斯决策规则来说，贝叶斯风险的值是两条曲线中函数值较小的一支下方的面积

即假设如果

，有

，那么

如果

是0-1损失函数，那么风险有一个很直观的解释：

，这很符合直觉，因为

是损失的数学期望。并且此时

贝叶斯最优决策边界是

同一个二维正态分布的两种视图，右图中的白线即为贝叶斯最优决策边界

三种建立分类器的方法

1 生成模型「Generative models」（如LDA）

假设不同类别的样本点来自于不同的概率分布
猜测分布的形式（如正态分布）
已知
，对于每个类别

，拟合概率分布参数
对于每个类别
，估计
利用贝叶斯理论计算出
如果使用0-1损失函数，选择最大化
的类别

作为预测结果，即最大化
完全概率模型，对所有变量进行建模

2 判别模型「Discriminative models」（如logistic regression）

直接对
进行建模
仅对需要预测的变量进行建模

3 寻找决策边界（如SVM）

直接对
进行建模（没有先验）

Comments

1和2的优点：
说明了预测的置信度
1的优点：能够找出边界样本（
很小）
1的缺点：通常很难准确估计样本的分布，真实的分布很少与标准概率分布完全匹配
在实践中，如果样本能够很好地被正态分布所近似，并且有足够多的样本点用以估计分布参数，那么生成模型往往是最好的选择

weixin_31857829

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。