机器学习监督学习之分类算法---朴素贝叶斯理论知识

感谢Jack-Cui大佬的知识分享

机器学习专栏点击这里

0. 概述

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法
在这里插入图片描述
朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这个假设很硬,现实生活中根本不满足,但是这项技术对于绝大部分的复杂问题仍然非常有效。

朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于 该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。

1. 朴素贝叶斯理论

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,所以要弄懂朴素贝叶斯需要先清楚贝叶斯理论。

1.1 贝叶斯理论

1.1.1 相关计算公式:条件概率公式,贝叶斯定理(公式),全概率公式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 贝叶斯理论的逻辑思维

贝叶斯定理可以在有限的信息下,能够帮助我们预测出事件发生的概率
在这里插入图片描述
从公式来看,我们需要知道这么3个事情:

  • 先验概率:我们把 P(A) 称为"先验概率"(预估概率)(Prior probability),即在不知道B事件的前提下,我们对A事件概率的一个主观判断

  • 可能性函数(调整因子):P(B|A)/P(B) 称为“可能性函数”,这是一个调整因子,即新信息B 带来的调整,作用是使得先验概率(预估概率)更接近真实概率

  • P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估

    可能性函数你可以理解为新信息过来后,对先验概率的一个调整。
    
    比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率/主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),
    然后你根据掌握的最新信息优化了自己之前的理解(可能性函数/调整因子),最后重新理解了“人工智能”这个信息(后验概率)
    	
    	如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
        如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
        如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。
    

贝叶斯定理可以理解成下面的式子:

后验概率(新信息出现后的A概率) = 先验概率(A概率) x 调整因子(新信息带来的调整)

这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"

贝叶斯的底层思想就是:
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息 。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测,也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)

1.2 朴素贝叶斯推断

理解了贝叶斯推断,那么让我们继续看看朴素贝叶斯。贝叶斯和朴素贝叶斯的概念是不同的,区别就在于“朴素”二字,朴素贝叶斯对条件概率分布做了条件独立性的假设,即各个特征相互独立
比如下面的公式,假设有n个特征:
在这里插入图片描述
由于每个特征都是独立的,我们可以进一步拆分公式
在这里插入图片描述
在这里插入图片描述

1.2.1 案例

已知信息如下:
在这里插入图片描述
求解问题: 现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
在这里插入图片描述
根据朴素贝叶斯条件独立性的假设 可知,"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了:
在这里插入图片描述
因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。

这就是 贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类 。 同样,在编程的时候,如果不需要求出所属类别的具体概率,P(打喷嚏) = 0.5和P(建筑工人) = 0.33的概率是可以不用求的。

2.总结

朴素贝叶斯推断的一些优点:

  • 生成式模型,通过计算概率来进行分类,可以用来处理多分类问题。
  • 对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。

朴素贝叶斯推断的一些缺点:

  • 对输入数据的表达形式很敏感。
  • 由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失。
  • 需要计算先验概率,分类决策存在错误率。

传送门

朴素贝叶斯理论推导与三种常见模型
条件概率、贝叶斯公式和全概率公式
怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)?
马同学–怎样用非数学语言讲解贝叶斯定理(Bayes theorem)?
朴素贝叶斯分类:原理
机器学习 | 算法笔记- 朴素贝叶斯(Naive Bayesian)

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值