机器学习西瓜书笔记(七)--------------贝叶斯分类器

本文详细介绍了贝叶斯分类器的理论框架,包括贝叶斯决策论、极大似然法和朴素贝叶斯分类器。贝叶斯分类器基于贝叶斯决策论,通过类先验概率和条件概率进行决策。极大似然法用于估计概率分布参数,而朴素贝叶斯分类器则通过属性条件独立性假设简化问题。文章还讨论了参数估计的挑战及平滑处理方法。
摘要由CSDN通过智能技术生成

目录

 

贝叶斯分类器的理论框架

贝叶斯决策论

极大似然法

朴素贝叶斯分类器


贝叶斯分类器的理论框架

贝叶斯分类器的理论框架基于贝叶斯决策论(Bayesian decision theory),而贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

具体来说,若我们决策的目标是最小化分类错误率,贝叶斯最优分类器要对每个样本 x,选择能使后验概率 P( c | x )最大的类别 c 标记。可在现实任务中后验概率通常难以直接获得,贝叶斯分类器使用的策略是“生成型模型”,即使用贝叶斯定理:

P( c | x ) = P( c, x ) / P( x ) = P( c )P( x | c ) / P( x )     式(1)

将求后验概率P(c|x)的问题转变为求先验概率P(c)和条件概率P(x|c)。

2)P( c )和 P( x | c ) 如何求得

[1]P( c )

类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定律,当训练集包含充足的独立同分布样本时,P(c) 可通过各类样本出现的频率来进行估计

[2]P( x | c )

因为对于类条件概率 P( x | c ) 来说,由于它涉及关于 x 所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难(想象一下,d 个属性就会有 2 的 d 次方种可能的取值,在现实中,这个种类数往往大于训练样本)。针对这种情况,类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。对于条件概率 P( x | c ),我们可以采用极大似然估计来根据数据采样来估计概率分布参数。对参数 t 进行极大似然估计,就是试图在 t 所有可能的取值中,找到一个能使数据出现的“可能性”最大的值。

需注意的是,这种参数化的方法虽然能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。

极大似然估计是对类条件概率的分布形式进行假设,然后通过计算来对概率分布参数进行近似的方法,其是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值