一文详解,朴素贝叶斯(Naive Bayes)公式背后的原理。码字不易,喜欢请点赞,谢谢!!!
一、朴素贝叶斯前言
英国著名的数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)在生前曾写过一篇关于解决逆向概率问题的文章。直到其死后两年(1763),这篇文章被他的好友理查德·普莱斯整理发表。这篇论文的思想影响了接下来几百年的统计学研究。
逆向概率是相对于正向概率而言的。
正向概率:一个盒子里面有M个白球,N个黑球,那么我们随机拿一个球出来是黑球(白球)的概率?这就是一个正向概率问题,比较好理解。
逆向概率:现实生活中,绝大部分问题,我们是很难知道具体情况的,那么我们能否根据拿出来球的颜色来判断盒子中黑球和白球的比例呢?贝叶斯公式可以先估计一个值,然后根据实际结果不断进行更新。
另外,在1774年,法国著名数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace,1749~1827)独立研究,再次发现了贝叶斯公式,因此有时人们也称贝叶斯公式为“贝叶斯-拉普拉斯公式”。
二、几点重要的概率知识
要深入理解朴素贝叶斯(Naive Bayes)公式,要先掌握概率论里面的:先验概率、后验概率、条件概率和全概率。
为了便于理解,这里给了一个实例参考:假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。
- 先验概率
根据以往经验和分析得到的概率。
eg:一个人在远处看到了一个学生,是男生的概率。 - 后验概率
后验概率是事情发生之后,这个事情有某个因素引起的可能性大小。
eg:一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少? - 条件概率
指在事件A在事件B发生的条件下发生的概率。
eg:一个人在远处随机看到了一个女生,则她穿裙子的概率是多少? - 全概率
全概率公式是对事件A的概率分解,转化为不同情况下发生的概率和问题。
eg:学校学生穿裤子的概率,可以转化为男生穿裤子+女生穿裤子的概率和。
三、朴素贝叶斯原理
为了方便理解,这里结合实例。实例:某城市,阑尾炎发病率为60%,医生人为检查阑尾炎的准确率为80%。求医生人为诊断出某患者患阑尾炎,则其患或不患阑尾炎的概率是多少?
首先,朴素贝叶斯假设特征之间相互独立,后面会讲到这是一个十分强大而有用的假设。
事件 A 1 A_1 A1:阑尾炎发生概率60%;
事件 A 2 A_2 A2:阑尾炎不发生概率40%;
事件 B B B:医生检查为阑尾炎;
则所求为概率 P ( A 1 / B ) P(A_1/B) P(A1/B)和 P ( A 2 / B ) P(A_2/B) P(A2/B)。
朴素贝叶斯模型由两种概率组成:
-
类的先验概率: A 1 A_1 A1患阑尾炎概率60%; A 2 A_2 A2不患阑尾炎概率40%
-
特征的条件概率:已知患者患有阑尾炎的情况下,医生人工检查出患阑尾炎的概率为80%,即 P ( B / A 1 ) = 80 P(B/A_1)=80% P(B/A1)=80;已知患者不患有阑尾炎的情况下,医生人工检查出患阑尾炎的概率为20%,即 P ( B / A 2 ) = 20 P(B/A_2)=20% P(B/A2)=20。
则该患者确实患阑尾炎的概率:<