贝叶斯分类器原理及推导

贝叶斯公式

在讨论贝叶斯分类时,我们先要认识贝叶斯公式,其表示意义为:一件事在特定条件下发生的概率。
我们知道,条件概率计算公式为:
B发生条件下,A发生的概率
在这里插入图片描述
同时,A发生条件下,B发生概率为:
在这里插入图片描述
则有
在这里插入图片描述
可得
在这里插入图片描述
这就是常见的贝叶斯公式

贝叶斯决策

贝叶斯决策论是在概率框架下实施决策的基本方法。在分类任务中,在所有相关概率都已知的理想条件下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
我们可以以一个分类任务为例,
在这里插入图片描述
很明显,此处目标是最小化分类错误率,假设选择0-1损失函数,
在这里插入图片描述
此时条件风险为:
在这里插入图片描述
对于为什么会得到这个式子,举个例子便知
在这里插入图片描述
为使得分类错误率最小化,贝叶斯最优分类器可为:
在这里插入图片描述
基于贝叶斯定理
在这里插入图片描述
其中,先验概率Pc可通过样本集中各类样本出现的频率来进行估计,但是后验概率Px|c要运用同样方法估计就很艰难,因为在现实应用中样本的属性都是多值的,那么可能取值将为指数级,如d个属性为二值型,那么可能取值为2的d次方个。对此,我们可以采用极大似然估计的方法,先假定参数服从于一个先验分布,然后基于观测到的数据来计算参数的后验分布,但是这种方法对于分布形式的选取要求较高。

朴素贝叶斯分类器

由于类条件概率Px|c是所有属性上的联合概率,属性间并不能保证完全独立,所以对于的估计很难从有限的样本集中获得。为避开此障碍,我们假设所有属性相互独立,引入朴素贝叶斯分类器。
在这里插入图片描述
此处运用了马尔科夫假设,使Px|c的值约等于其各属性概率的乘积形式。
而对于所有的类别来说,Px都相同,所以可直接计算其他部分,可得朴素贝叶斯分类器公式:
在这里插入图片描述
对各类属性的概率估计方法可参考如下:
在这里插入图片描述

贝叶斯估计

如前所述,在最后的朴素贝叶斯公式中,涉及到概率的乘积形式,那万一其中某项概率值为0呢?
为了解决这一问题,我们引入拉普拉斯平滑
在这里插入图片描述
令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数。
当然,通常来讲,平滑之后仍有可能出现数值下溢的情况,此时对于计算值取对数是一个比较好的选择。
最后附上朴素贝叶斯算法流程:
在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值