机器学习(十)分类算法之朴素贝叶斯(Naive Bayes)算法

贝叶斯定理

首先我们来了解一下贝叶斯定理:
贝叶斯定理是用来做什么的?简单说,概率预测:某个条件下,一件事发生的概率是多大?
了解一下公式
事件B发生的条件下,事件A发生的概率为:
这里写图片描述
在这里插入图片描述
同理可得,事件A发生的条件下,事件B发生的概率为:
在这里插入图片描述
很容易推导得到:
在这里插入图片描述
假设若P(A)≠0,那么就可以得到用来预测概率的贝叶斯定理了:
在这里插入图片描述
这个定理显然是可以推导到多个条件的,比如在2个条件的情况下:在这里插入图片描述
朴素贝叶斯定义:
我们之所以称之为朴素,是因为我们做了一个简单的假设,即类中特定特征的存在与任何其他特征的存在无关,这意味着每个特征彼此独立。
通过以上定理和“朴素”的假定,我们知道:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
在这里插入图片描述在这里插入图片描述

经典案例

  • 信某宗教的人是恐怖分子的概率是多少?
    假设 100% 的恐怖分子都相信某宗教,而某人相信某宗教,并不代表此人 100% 是恐怖分子,还需要考虑先验概率,假设全球有 7万 恐怖分子(全球人口 70亿 ),假设全球有 1/3 的人口相信某宗教,那么这个人是恐怖分子的概率是多少?
    解:
    我们要求解的是这个概率: P(恐怖分子|信某教)
    套用公式,得到 :

    P(恐怖分子|信某教)
    = P(信某教|恐怖分子) P(恐怖分子) / P(信某教)
    = 100% * (7万人/70亿人) / (1/3)
    = 0.003%
    

    也即十万分之三的概率。
    延展开去,从数学理论上讲,民主党不针对某个信教人群是对的,但是题目中设定 100% 的恐怖分子信某教,这个假设就比较…

  • 检测呈阳性的雇员吸毒概率是多少?
    假设一个常规的检测结果的敏感度与可靠度均为 99% ,即吸毒者每次检测呈阳性 (+) 的概率为 99% 。而不吸毒者每次检测呈阴性 (-) 的概率为 99% 。假设某公司对全体雇员进行吸毒检测,已知 0.5% 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
    解:
    我们要求解的是这个概率: P(吸毒|检测呈阳性的雇员)
    套用公式,得到 :

    P(吸毒|检测呈阳性雇员)
    = P(检测呈阳性雇员|吸毒) P(吸毒) / P(检测呈阳性雇员)
    = 99% * 0.5% / [P(检测呈阳性雇员∩吸毒) + P(检测呈阳性∩不吸毒)]
    = 99% * 0.5% / [P(检测呈阳性雇员|吸毒) * P(吸毒) + P(检测呈阳性|不吸毒) * P(不吸毒)]
    = 99% * 0.5% / [99% * 0.5% + 1% * 99.5%]
    = 0.3322
    

    也就是说,尽管吸毒检测的准确率高达 99% ,但贝叶斯定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约 33% ,不吸毒的可能性比较大。
    不过也要注意,检测的准确率高低,十分影响结果的概率,如果检测精度达到 99.9% ,那么检测呈阳性的雇员吸毒的概率就上升到了 83.39% 。

  • 垃圾邮件的过滤
    这是 Paul Graham 在 《黑客与画家》 中提到的办法。这个问题其实可以倒推,我们要求解的是这个概率: P(垃圾邮件|检测到某种特征)
    这个某种特征可以是 关键词,可以是 时间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值