《机器学习实战》之朴素贝叶斯

本章内容:

  1. 使用概率分布进行分类
  2. 学习朴素贝叶斯分类器
  3. 解析RSS源数据
  4. 使用朴素贝叶斯来分析不同地区的态度

基于贝叶斯决策理论的分类方法

朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据

朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前要了解一下贝叶斯决策理论。

假如我们有一个数据集,它由两类数据组成,数据分布如图:

        假设有位读者找到了描述图中两类数据的统计参数。(暂且不用管如何找到描述这类数据的
统计参数,第10章会详细介绍。)我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表
示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表示的类别)的概率,
那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
  如果  p1(x,y) > p2(x,y) ,那么类别为1。
  如果  p2(x,y) > p1(x,y) ,那么类别为2。
也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有
最高概率的决策。回到图4-1,如果该图中的整个数据使用6个浮点数
① 来表示,并且计算类别概
率的Python代码只有两行,那么你会更倾向于使用下面哪种方法来对该数据点进行分类?
(1) 使用第1章的kNN,进行1000次距离计算;
(2) 使用第2章的决策树,分别沿x轴、y轴划分数据;
(3) 计算数据点属于每个类别的概率,并进行比较。
使用决策树不会非常成功;而和简单的概率计算相比,kNN的计算量太大。因此,对于上述
问题,最佳选择是使用刚才提到的概率比较方法。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值