机器学习——基于概率论的分类方法:朴素贝叶斯

一.贝叶斯概述:

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。朴素贝叶斯采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。

用一个比较直接的方式来描述一下,我们现在用p1(x,y)表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率,那么对于一个新数据点(x0,y0),可以用下面的规则来判断它的类别:

如果p1(x0,y0) > p2(x0,y0),那么类别为1

如果p1(x0,y0) < p2(x0,y0),那么类别为2

也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择最高概率的决策。


二,朴素贝叶斯的优缺点:

优点:在数据较少的情况下依然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

适用数据类型:标称型数据。


三.决策树创建分支伪代码:

1.求出先验概率

2.如果是离散属性,利用条件概率来求,如果是连续性属性,可考虑概率密度函数

3.利用贝叶斯判断准则

(利用到的一些公式见四)


四.利用到的一些公式

令Dc表示训练集D中c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:

P(c) = |Dc| / |D|

对离散属性而言,令Dc,xi 表示Dc中在地i个属性上取值为xi的样本组成的集合,则条件概率P(xi | c)可估计为:

P(xi | c) = |Dc,xi | / |Dc|

对连续性可考虑概率密度函数,假定,其中分别是第c类样本在第i个属性上方差和取值,则有:


简化之后的贝叶斯判定准则:



注意:如果连乘过程中遇到0,可以分子分母上下补一个常数,另外,如果连乘的数字都比较小,为了防止程序出现下溢出或则得到不正确的结果,可以用log来取对数。


参考文献:机器学习(周志华),机器学习实战


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值