贝叶斯分类器

贝叶斯分类器是基于“后验概率”实施决策的基本方法,通过最大化后验概率进行单点估计。根据贝叶斯原理,可知:

P(c|{\color{Red} x})=\frac{P(c)P({\color{Red} x}|c)}{P({\color{Red} x})}  其中x为属性向量,c为类别label。

P(c)是类“先验”概率,表示样本空间中各类别结果所占的比例;P(x|c)是条件概率,其大小等于P({\color{Red} x}|c) = P(x_{1},\cdots ,x_{n}|c)

为了方便计算条件概率,引入“属性条件独立性假设”,即各属性之间相互独立,互不影响,称之为“朴素贝叶斯”。那么,

P({\color{Red} x}|c) = P(x_{1},\cdots ,x_{n}|c)=P(x_{1}|c)*P(x_{2}|c)*\cdots *P(x_{n}|c)

P(c|{\color{Red} x})=\frac{P(c)P({\color{Red} x}|c)}{P({\color{Red} x})}=P(c)\frac{\prod P(x_{i}|c)}{P({\color{Red} x})}

显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率。在满足独立同分布时,

P(c) = \frac{|D_{c}|}{|D|}, P(x_{i}|c) = \frac{ |D_{c,x_{i}}|}{|D_{c}|}

但是在训练过程中,若某个属性值在训练集中没有与某个类同时出现时,则基于上述公式进行训练时则会出现问题。为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”,常用“拉普拉斯修正”,具体来说,令N表示训练集D中可能的类别数目,Ni表示第i个属性可能的取值数目,则:

P(c) = \frac{|D_{c}| + 1}{|D|+ N} , P(x_{i}|c) = \frac{ |D_{c,x_{i}}| + 1}{|D_{c}| + N_{i}}  。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值