最小错误率贝叶斯决策的基本思想_CS189笔记|Lecture 6:Decision Theory 贝叶斯决策论...

本文介绍了最小错误率的贝叶斯决策理论,通过一个癌症诊断的例子阐述了损失函数的重要性。讨论了0-1损失函数、决策规则和贝叶斯决策规则,并解释了如何在连续型概率分布下制定决策边界。还比较了生成模型(如LDA)、判别模型(如logistic回归)和寻找决策边界(如SVM)三种分类器构建方法的优缺点。
摘要由CSDN通过智能技术生成

5892c92f3ce7b06143232d1ce8915c93.png

贝叶斯理论

栗子 : 假设某人群中10%的人患有癌症,90%的人没有癌症,并且它们卡路里摄入的离散概率分布

如下:

b0f8ec4afabda6dc1a875f2f7929b485.png
请不要把表中的数据当作医学参考

Q:有一个人每日摄入卡路里X=1400,猜测他是否患有癌症?

直接由表中的

。得出此人患有癌症的结论是不合理的,因为我们没有考虑到患癌症的人本身很少的因素(即先验概率prior probability)。

A:首先我们计算

,由全概率公式:

进而由贝叶斯理论(Bayes' Theorem)得出:

因此,

,故不应得出此人患有癌症的结论。
被称作后验概率(posterior probability)

损失函数

但是... 将一个"癌症患者"误诊为没有癌症(False Negative)比将一个"没有癌症的人"误诊为癌症患者(False Positive)的代价往往要大的多。因为对于前者,患者可能由于误诊耽误治疗;而对于后者,代价可能只是"患者"需要多花些钱做更详细的检查。因此,我们可能不能根据

而简单地得出此人没有癌症的结论。

损失函数(Loss Function)

定义了如果分类器预测结果为
,而真实类别为
的情况下的损失,例如:

显然,36%的概率损失5比64%的概率损失1要更糟糕,因此我们应该建议患者进行进一步的检查。

一些定义

  1. 上文的损失函数是非对称的(asymmetrical)

2. 0-1损失函数定义为

3. 决策规则「decision rule」 (又名分类器「classifier」)定义为

即决策规则

是一个映射,它将特征向量
映射为1(属于这个类)或-1(不属于这个类)

4.

的风险「risk」是损失的数学期望,即
,其有两种展开方式,且各有用途:

5. 贝叶斯决策规则「Bayes decision rule」(也称作贝叶斯分类器「Bayes classifier」)是最小化

的函数

假设

时,
,那么有:

显然,由上式可以得出,如果

是对称的(symmetric),我们可以直接选择后验概率最大的类别作为预测结果!

在最开始的例子中,如果

;如果

6. 贝叶斯风险「Bayes risk」,又称最优化风险「optimal risk」是贝叶斯分类器的风险

由(2)式可以很容易地计算出,在癌症的例子中,

7. 推导

的过程叫做风险最小化。

连续型概率分布的情况

假设在之前的例子中,

有一个连续概率密度函数「continuous probability density function, PDF」

e4d7bfb2a229ea90da1bd2a5d387067a.png

如果我们将上图中两条曲线的交界点作为决策边界「decision boundary」,我们就犯了和之前一样的错误,即没有考虑先验概率。

假设

,且我们使用0-1损失函数

0bb1e54c2a8a6dae20c2f6e6b1c26db1.png

为了最大化正确预测的概率,贝叶斯决策规则在上图中选择概率值最高的曲线,即在决策边界的左侧选择患有癌症,在决策边界的右侧选择没有癌症。

我们可以和之前一样定义风险「risk」,区别只是将求和符号改为积分

对于贝叶斯决策规则来说,贝叶斯风险的值是两条曲线中函数值较小的一支下方的面积

即假设如果

,有
, 那么

如果

是0-1损失函数,那么风险有一个很直观的解释:
,这很符合直觉,因为
是损失的数学期望。并且此时
贝叶斯最优决策边界

6a8c60c9a742fc103327c63f3be75137.png
同一个二维正态分布的两种视图,右图中的白线即为贝叶斯最优决策边界

三种建立分类器的方法

1 生成模型「Generative models」(如LDA)

  • 假设不同类别的样本点来自于不同的概率分布
  • 猜测分布的形式(如正态分布)
  • 已知
    ,对于每个类别
    ,拟合概率分布参数
  • 对于每个类别
    ,估计
  • 利用贝叶斯理论计算出
  • 如果使用0-1损失函数,选择最大化
    的类别
    作为预测结果,即最大化
  • 完全概率模型,对所有变量进行建模

2 判别模型「Discriminative models」(如logistic regression)

  • 直接对
    进行建模
  • 仅对需要预测的变量进行建模

3 寻找决策边界(如SVM)

  • 直接对
    进行建模(没有先验)

Comments

  • 1和2的优点:
    说明了预测的置信度
  • 1的优点:能够找出边界样本(
    很小)
  • 1的缺点:通常很难准确估计样本的分布,真实的分布很少与标准概率分布完全匹配
  • 在实践中,如果样本能够很好地被正态分布所近似,并且有足够多的样本点用以估计分布参数,那么生成模型往往是最好的选择
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值