贝叶斯定理
首先我们来了解一下贝叶斯定理:
贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大?
了解一下公式
事件B发生的条件下,事件A发生的概率为:
这里写图片描述
同理可得,事件A发生的条件下,事件B发生的概率为:
很容易推导得到:
假设若P(A)≠0,那么就可以得到用来预测概率的贝叶斯定理了:
这个定理显然是可以推导到多个条件的,比如在2个条件的情况下:
朴素贝叶斯定义:
我们之所以称之为朴素,是因为我们做了一个简单的假设,即类中特定特征的存在与任何其他特征的存在无关,这意味着每个特征彼此独立。
通过以上定理和“朴素”的假定,我们知道:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
经典案例
-
信某宗教的人是恐怖分子的概率是多少?
假设 100% 的恐怖分子都相信某宗教,而某人相信某宗教,并不代表此人 100% 是恐怖分子,还需要考虑先验概率,假设全球有 7万 恐怖分子(全球人口 70亿 ),假设全球有 1/3 的人口相信某宗教,那么这个人是恐怖分子的概率是多少?
解:
我们要求解的是这个概率: P(恐怖分子|信某教)
套用公式,得到 :P(恐怖分子|信某教) = P(信某教|恐怖分子) P(恐怖分子) / P(信某教) = 100% * (7万人/70亿人) / (1/3) = 0.003%
也即十万分之三的概率。
延展开去,从数学理论上讲,民主党不针对某个信教人群是对的,但是题目中设定 100% 的恐怖分子信某教,这个假设就比较… -
检测呈阳性的雇员吸毒概率是多少?
假设一个常规的检测结果的敏感度与可靠度均为 99% ,即吸毒者每次检测呈阳性 (+) 的概率为 99% 。而不吸毒者每次检测呈阴性 (-) 的概率为 99% 。假设某公司对全体雇员进行吸毒检测,已知 0.5% 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
解:
我们要求解的是这个概率: P(吸毒|检测呈阳性的雇员)
套用公式,得到 :P(吸毒|检测呈阳性雇员) = P(检测呈阳性雇员|吸毒) P(吸毒) / P(检测呈阳性雇员) = 99% * 0.5% / [P(检测呈阳性雇员∩吸毒) + P(检测呈阳性∩不吸毒)] = 99% * 0.5% / [P(检测呈阳性雇员|吸毒) * P(吸毒) + P(检测呈阳性|不吸毒) * P(不吸毒)] = 99% * 0.5% / [99% * 0.5% + 1% * 99.5%] = 0.3322
也就是说,尽管吸毒检测的准确率高达 99% ,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约 33% ,不吸毒的可能性比较大。
不过也要注意,检测的准确率高低,十分影响结果的概率,如果检测精度达到 99.9% ,那么检测呈阳性的雇员吸毒的概率就上升到了 83.39% 。 -
垃圾邮件的过滤
这是 Paul Graham 在 《黑客与画家》 中提到的办法。这个问题其实可以倒推,我们要求解的是这个概率: P(垃圾邮件|检测到某种特征) 。
这个某种特征可以是 关键词,可以是 时间,