贝叶斯决策论

本文摘自《机器学习》,清华大学出版社,周志华著

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们用多分类任务为例来解释其基本原理。
假设有N中可能的类别标记,即 y=c1,c1,...,cN λij 是一个真实标记为 cj 的样本误分类为 ci 所产生的损失。基于后验概率 P(ci|x) 可获得将样本 x 分类为ci所产生的期望损失(expected loss),即在样本 x 上的“条件风险”(conditional risk)。


R(ci|x)=Nj=1λijP(cj|x)1

我们的任务是寻找一个判定准则 h xy以最小化总体风险。


R(h)=Ex[R(h(x)|)]2

显然,对每个样本 x ,若h能最小化条件风险 R(h(x)|x) ,则总体风险也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择哪个能使条件风险 R(c|x) 最小的类别标记,即


h(x)=argcyminR(c|x)3

此时, h 称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险 R(h) 称为贝叶斯风险(Bayes risk)。 1R(h) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上线。
具体来说,若目标是最小化分类错误率,则误判损失 λij 可写为:


λij={0,if  i=j1,otherwise

此时条件风险


R(c|x)=1P(c|x)4

于是,最小化分类错误的贝叶斯最优分类器为


h(x)=argcymaxP(c|x)5

即对每个样本 x ,选择能使后验概率P(c|x)最大的类别标记。
不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P(c|x) 。然而,在现实任务中这通常难以直接获得。从这个角度来看,机器学习所实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c|x) 。大体来说,主要有两种策略:给定 x ,可通过直接建模P(c|x)来预测 c ,这样得到的是“判别式模型(discrimination models)”;也可以先对联合概率分布P(x,c)建模,然后再由此获得 P(c|x) ,这样得到的是“生成式模型”(generation models)。显然,前面介绍的决策树、BP神经网络、支持向量机,都可归入判别式模型的范畴。对生成式模型来说,必然考虑:


P(c|x)=P(x,c)P(x)6

基于贝叶斯定理, P(c|x) 可写为:


P(c|x)=P(c)P(x|c)P(x)7

其中, P(c) 是类“先验”(prior)概率; P(x|c) 是样本 x 相对于类标记c的类条件概率(class-conditional probability),或称为“似然”(likelihood); P(x) 是用于归一化的“证据”(evidence)因子。对给定样本 x ,证据因子P(x)与类标记无关,因此估计 P(c|x) 的问题就转化为如何基于训练数据D来估计先验 P(c) 和似然 P(x|c)
类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定率,当训练集包含充足的独立同分布样本时, P(c) 可通过各类样本出现的频率来进行估计。
对类条件概率 P(x|c) 来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本的d个属性都是二值的,则样本将有 2d 种可能的取值,在现实应用中,这个值往往远大于训练样本数 m ,也就是说,很多样本取值在训练集中根本没有出现,直接使用频率估计P(x|c)显然不可行,因为“未被观测到”与“出现概率为零”通常是不同的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值