西瓜书学习笔记7-贝叶斯分类器

本文介绍了贝叶斯决策论及其在分类任务中的应用,阐述了极大似然估计在估计概率分布参数中的作用。接着详细讲解了朴素贝叶斯分类器的原理和实现,包括属性条件独立性假设以及平滑处理。此外,还讨论了半朴素贝叶斯分类器,如独依赖估计策略,并简要介绍了贝叶斯网的概念和结构。最后提到了EM算法在处理隐变量时的应用。
摘要由CSDN通过智能技术生成

chapter 7 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于概率误判损失来选择最优的类别标记,以多分类为例解释原理:
假设分类问题有N种可能的类别,λij是将真实标记为j的样本误分类为i所产生的损失,基于==后验概率P(ci丨x)==可获得将样本x分类为ci所产生的 期望损失,即在样本x上的 “条件风险”
在这里插入图片描述
我们的任务是寻找一个判定准则h,X→Y以最小化 总体风险
在这里插入图片描述
对每个样本,若h能最小化条件风险R(h(x)丨x),则总体风险也将被最小化。这就产生了 贝叶斯判定准则,为最小化总体风险,只需在每个样本上选择那个能 使条件风险最小的类别标记,即:
在这里插入图片描述
此时的h,称为 贝叶斯最优分类器,与之对应的总体风险R(h)称为 贝叶斯风险,1-R(h)反映了分类器所能达到的最好性能,即通过 机器学习所能产生的模型精度的理论上限(这里指所有的机器学习方法)。
为最小化错误率,误判损失λij可写为:
在这里插入图片描述
(如果判别正确,则损失为0,否则为1),此时条件风险:
在这里插入图片描述
于是,最小化分类错误率的最优贝叶斯分类器为:
在这里插入图片描述
即对每个样本x,选择能使后验概率P(c丨x)最大的类别标记。
欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c丨x),然而这在现实任务中通常 难以获得
机器学习的目标是基于有限的训练集样本尽可能准确地估计出后验概率P(c丨x)。
主要有两种策略:1、给定x,可以通过直接建模P(c丨x)来预测c,这得到的是 “判别式模型”。也可对联合概率分布P(x,c)建模,再由此获得P(c丨x),这样得到的是“生成式模型”,前面的决策树,BP,SVM都可纳入判别式模型的范畴,对生成式模型来说,必然考虑:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值