第三章:贝叶斯分类器

基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类
贝叶斯分类器的主要特点是:
属性可以离散,也可以连续;
数学基础扎实,分类效率稳定;
对缺失和噪声数据不太敏感;
属性如果不相关,分类效果很好,属性如果相关,则不低于决策树

P(Y)先验概率:根据以往的数据分析或者经验得到的概率
P(Y/X)后验概率:得到本事试验的信息从而重新修正的概率

贝叶斯定理:
P(A|B) = P(B|A) P(A) / P(B)

朴素贝叶斯:
朴素:特征条件独立;贝叶斯:基于贝叶斯定理,监督学习。
假设某个体有n项特征(Feature),分别为F1、F2、…、Fn。现有m个类别(Category),分别为C1、C2、…、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值:
P(C|F1F2…Fn) = P(F1F2…Fn|C)P(C)/ P(F1F2…Fn)

P(F1F2…Fn) 对于所有的类别都是相同的,可以省略,问题就变成了求分子的最大值:
P(F1F2…Fn|C)P(C)

朴素贝叶斯的所有特征都彼此独立,公式可以进一步写成:
P(F1F2…Fn|C)P© = P(F1|C)P(F2|C) … P(Fn|C)P(C)

上式等号右边的每一项,都可以从统计资料中得到,找到类别概率最大的分类。

在scikit中有多种不同的朴素贝叶斯分类器,区别在于假设了不同的P(X/y=Ck)分布:

高斯模型:假设特征的条件概率分布满足高斯分布。处理特征是连续型变量的情况
多项式模型:假设特征条件的概率分布满足多项式分布。最常见,要求特征是离散数据
伯努利模型:假设特征满足二项分布要求特征是离散的,每个特征只能取0或1.true or false.

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值