本文摘自《机器学习》,清华大学出版社,周志华著
贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们用多分类任务为例来解释其基本原理。
假设有N中可能的类别标记,即
y=c1,c1,...,cN
,
λij
是一个真实标记为
cj
的样本误分类为
ci
所产生的损失。基于后验概率
P(ci|x)
可获得将样本
x
分类为
我们的任务是寻找一个判定准则
h
:
R(h)=Ex[R(h(x)|x)]公式(2)
显然,对每个样本
x
,若
h∗(x)=argc∈yminR(c|x)公式(3)
此时,
h∗
称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险
R(h∗)
称为贝叶斯风险(Bayes risk)。
1−R(h∗)
反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上线。
具体来说,若目标是最小化分类错误率,则误判损失
λij
可写为:
此时条件风险
R(c|x)=1−P(c|x)公式(4)
于是,最小化分类错误的贝叶斯最优分类器为
h∗(x)=argc∈ymaxP(c|x)公式(5)
即对每个样本
x
,选择能使后验概率
不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率
P(c|x)
。然而,在现实任务中这通常难以直接获得。从这个角度来看,机器学习所实现的是基于有限的训练样本集尽可能准确地估计出后验概率
P(c|x)
。大体来说,主要有两种策略:给定
x
,可通过直接建模
P(c|x)=P(x,c)P(x)公式(6)
基于贝叶斯定理,
P(c|x)
可写为:
P(c|x)=P(c)P(x|c)P(x)公式(7)
其中,
P(c)
是类“先验”(prior)概率;
P(x|c)
是样本
x
相对于类标记
类先验概率
P(c)
表达了样本空间中各类样本所占的比例,根据大数定率,当训练集包含充足的独立同分布样本时,
P(c)
可通过各类样本出现的频率来进行估计。
对类条件概率
P(x|c)
来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本的d个属性都是二值的,则样本将有
2d
种可能的取值,在现实应用中,这个值往往远大于训练样本数
m
,也就是说,很多样本取值在训练集中根本没有出现,直接使用频率估计