推荐前期阅读:http://blog.csdn.net/u011995719/article/details/76732663
推荐阅读: 期望损失;条件风险
7.1 贝叶斯决策论
关键词:期望损失;条件风险;贝叶斯风险;判别模式;生成模式
假设对手写体数字进行分类,共计有10种类别标记,即 Y={y0,…,y9} , λij 是将一个真实样本标记为 cj 的样本错误分类为 ci 所产生的损失。
如
λ17
表示,把数字7认为是数字1的损失。在贝叶斯理论中,基于后验概率
P(ci∣x)
来进行分类的(想了解后验概率,先验概率的请参考博客:
http://blog.csdn.net/u011995719/article/details/76732663),也就是在10个后验概率当中选取最大的那个后验概率对应的类别作为预测,例如
P(c1∣x)
=0.89,那么就认为样本x的分类是 数字1,但是样本x真正的类别是数字7,那么这样所产生的损失为
λ17
。
将样本x分成 ci 的期望损失(expected loss),也就是 样本x上的条件风险(conditional risk).二者是一个意思。条件风险公式如下: R(ci∣x)=∑10j=1λijP(cj∣x)
条件风险这个值 隶属于单一样本x以及某一种类别标记 ,啥意思? 也就是对于样本x来说,它有10个条件风险,分别是对应 类别 数字0 、类别数字1……类别数字9。对于类别数字0的条件风险为 R(c0∣x)=∑10j=1λ0jP(cj∣x)
贝叶斯分类器的任务就是寻找一个判定准则h,使得总体风险最小,总体风险为: R(h)=Ex[R(h(x))∣x)] ,显然,对每个样本x,若h能最小化条件风险 R(ci∣x)=∑10j=1λijP(cj∣x) ,则总体风险R(h)也将被最小化。
可以得出贝叶斯准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即 h∗(x)=argminR(c∣x)
h∗ 称为贝叶斯最优分类器(Bayes optimal classifer),与之对应的总体风险 R(h∗) 称为贝叶斯风险(Bayes risk), 1−R(h∗) 反映了分类器能达到的最好性能
若采用0/1损失函数,那么条件风险 R(c∣x)=1−P(c∣x) ,其中 P(c∣x) 表示将样本x判定为类别c的概率(真实类别就是c),当 P(c∣x) 这个概率 越大,1- 就越小,即风险就越小。
所以最小化错误率的最优贝叶斯分类器 h∗(x)=argminR(c∣x) ,即对样本x,选择后验概率 P(c∣x) 最大的类别标记。于是乎,贝叶斯分类器首要任务就求后验概率,然而在现实任务中很难直接求取后验概率。
求这个后验概率主要分为以下两种策略:
- 给定x,可直接通过建模 P(c∣x) 来预测c,这样得到的模型称之为判别式模型(discriminative models);
2.可先对联合概率分布P(x,c)建模,然后再由此获得 ,此称之为生成式模型(generative models).
决策树、神经网络、支持向量机、线性模型都属于判别式模型。而贝叶斯分类器即是生成式模型,对于生成式模型来说,必然考虑贝斯公式:
P(c∣x)=P(x,c)P(x)=P(c)⋅P(x∣c)P(x)
其中P(c)称为先验概率, P(x∣c) 称之为似然(likelihood),没错,就是最大似然估计的似然!最大似然就是要这个似然最大!
P(x)是用于“归一化”的证据因子,而P(x)与类别标记无关,因此估计 P(c∣x) 的问题,就转化为如何基于训练数据集D来估计先验概率P(c) 以及条件概率 P(x∣c)
先验概率P(c)表示样本空间中各类别样本所占的比例,依据大数定律,P(c)可通过各类样本出现的频率来进行估计
对于类条件概率
P(x∣c)
,涉及x所有属性的联合概率,通常很难直接求取。但是,当x中的属性是独立的情况下(属性条件独立性假设),就可以利用公式
P(x∣c)=∏di=1P(xi∣c)
轻而易举求出类条件概率
P(x∣c)
,这么做就是朴素贝叶斯分类器了,虽然属性条件独立性假设几乎是不可能的,但是这样做的效果还是不错的! 接下来将介绍什么是朴素贝叶斯分类器
(http://blog.csdn.net/u011995719/article/details/77800120)