【机器学习-西瓜书】七、贝叶斯分类器

推荐前期阅读:http://blog.csdn.net/u011995719/article/details/76732663
推荐阅读: 期望损失;条件风险

7.1 贝叶斯决策论

关键词:期望损失;条件风险;贝叶斯风险;判别模式;生成模式

假设对手写体数字进行分类,共计有10种类别标记,即 Y=y0,,y9 , λij 是将一个真实样本标记为 cj 的样本错误分类为 ci 所产生的损失。

λ17 表示,把数字7认为是数字1的损失。在贝叶斯理论中,基于后验概率 P(cix) 来进行分类的(想了解后验概率,先验概率的请参考博客:
http://blog.csdn.net/u011995719/article/details/76732663),也就是在10个后验概率当中选取最大的那个后验概率对应的类别作为预测,例如 P(c1x) =0.89,那么就认为样本x的分类是 数字1,但是样本x真正的类别是数字7,那么这样所产生的损失为 λ17

将样本x分成 ci 期望损失(expected loss),也就是 样本x上的条件风险(conditional risk).二者是一个意思。条件风险公式如下: R(cix)=10j=1λijP(cjx)

条件风险这个值 隶属于单一样本x以及某一种类别标记 ,啥意思? 也就是对于样本x来说,它有10个条件风险,分别是对应 类别 数字0 、类别数字1……类别数字9。对于类别数字0的条件风险为 R(c0x)=10j=1λ0jP(cjx)

贝叶斯分类器的任务就是寻找一个判定准则h,使得总体风险最小,总体风险为: R(h)=Ex[R(h(x))x)] ,显然,对每个样本x,若h能最小化条件风险 R(cix)=10j=1λijP(cjx) ,则总体风险R(h)也将被最小化。

可以得出贝叶斯准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即 h(x)=argminR(cx)

h 称为贝叶斯最优分类器(Bayes optimal classifer),与之对应的总体风险 R(h) 称为贝叶斯风险(Bayes risk), 1R(h) 反映了分类器能达到的最好性能

若采用0/1损失函数,那么条件风险 R(cx)=1P(cx) ,其中 P(cx) 表示将样本x判定为类别c的概率(真实类别就是c),当 P(cx) 这个概率 越大,1- 就越小,即风险就越小。

所以最小化错误率的最优贝叶斯分类器 h(x)=argminR(cx) ,即对样本x,选择后验概率 P(cx) 最大的类别标记。于是乎,贝叶斯分类器首要任务就求后验概率,然而在现实任务中很难直接求取后验概率。

求这个后验概率主要分为以下两种策略:

  1. 给定x,可直接通过建模 P(cx) 来预测c,这样得到的模型称之为判别式模型(discriminative models)

2.可先对联合概率分布P(x,c)建模,然后再由此获得 ,此称之为生成式模型(generative models).

决策树、神经网络、支持向量机、线性模型都属于判别式模型。而贝叶斯分类器即是生成式模型,对于生成式模型来说,必然考虑贝斯公式:
P(cx)=P(x,c)P(x)=P(c)P(xc)P(x)

其中P(c)称为先验概率, P(xc) 称之为似然(likelihood),没错,就是最大似然估计的似然!最大似然就是要这个似然最大!

P(x)是用于“归一化”的证据因子,而P(x)与类别标记无关,因此估计 P(cx) 的问题,就转化为如何基于训练数据集D来估计先验概率P(c) 以及条件概率 P(xc)

先验概率P(c)表示样本空间中各类别样本所占的比例,依据大数定律,P(c)可通过各类样本出现的频率来进行估计

对于类条件概率 P(xc) ,涉及x所有属性的联合概率,通常很难直接求取。但是,当x中的属性是独立的情况下(属性条件独立性假设),就可以利用公式 P(xc)=di=1P(xic) 轻而易举求出类条件概率 P(xc) ,这么做就是朴素贝叶斯分类器了,虽然属性条件独立性假设几乎是不可能的,但是这样做的效果还是不错的! 接下来将介绍什么是朴素贝叶斯分类器
(http://blog.csdn.net/u011995719/article/details/77800120)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值