跟我一起学scikit-learn20：朴素贝叶斯算法

最新推荐文章于 2022-04-02 18:57:50 发布

金字塔下的小蜗牛

最新推荐文章于 2022-04-02 18:57:50 发布

阅读量3.2k

点赞数

分类专栏： scikit-learn机器学习常用算法原理及编程实战文章标签： sklearn 朴素贝叶斯高斯分布

本文链接：https://blog.csdn.net/u011436316/article/details/93376325

版权

朴素贝叶斯（Naive Bayers）算法是一种基于概率统计的分类方法。它在条件独立假设的基础上，使用贝叶斯定理构建算法，在文本处理领域有广泛的应用。

1.朴素贝叶斯算法原理

朴素贝叶斯算法，需要从贝叶斯定理说起，它是一个条件概率公式。

1.贝叶斯定理

先来看一个案例。某警察使用一个假冒伪劣的呼吸测试仪来测试司机是否醉驾。假设这个仪器有5%的概率会把一个正常的司机判断为醉驾，但对真正醉驾的司机其测试结果是100%准确的。从过往的统计得知，大概有0.1%的司机为醉驾。假设该警察随机拦下一个司机，让他做呼吸测试，仪器测试结果为醉驾。仅凭这一结果判断，这位司机真的是醉驾的概率有多高？

90%？50%？真实的结果是不到2%。如果我们没有通过其他方法（如闻司机身上的酒味），仅凭这个仪器的测试结果来判断，其实准确性是非常低的。

假设我们的样本里有1000人，根据过往的统计数据，这1000位司机里有0.1%的概率为真正醉驾，即有1位是真正醉驾的司机，999位是正常的。这1000位司机均拿这个劣质呼吸测试仪来测试，则有多少人会被判断为醉驾？对这位真正醉驾的司机，他无法蒙混过关，而对999位正常的司机，有5%的概率会被误判，所以总共有1+999*5%=51个司机会被仪器判断为醉驾。由此可知，所有被判断为醉驾的司机里，真正醉驾的概率是1/(1+51)=1.96%。

实际上，贝叶斯定理是计算这类条件概率问题的绝佳方法。我们记P(A|B)表示观察到的事件B发生时事件A发生的概率，则贝叶斯定理的数学表达式为：
$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$

回到醉驾的例子，我们记事件A为司机真正醉驾，事件B为仪器显示司机醉驾。则例子里要求解的问题即为P(A|B)，即观察到仪器显示司机醉驾（事件B发生）时，司机真正醉驾（事件A发生）的概率是多少。P(A)表示司机真正醉驾的概率，这是先验概率，这里是0.1%。P(B|A)表示当司机真正醉驾时（事件A发生），仪器显示司机醉驾（事件B发生）的概率是多少，这里是100%。P(B)表示仪器显示司机醉驾的概率，包含两部分数据，针对真正醉驾的司机(0.1%)，仪器能100%检测出来，因为这部分的数值为0.1% x 100%；针对正常的司机(1-0.1%)，仪器显示醉驾的概率为(1-0.1%) x 5%。代入贝叶斯定理公式得：
$P(A|B)=0.1\% \times 100\% \div [0.1\% \times 100\% + (1-0.1\%) \times 5\%]=1.96\%$

2.朴素贝叶斯分类法

假设有一个已经标记的数据集 $x^{(i)},y^{(i)}]$ ，其中 $y^{(i)} \in [C_1,C_2,...,C_b]$ ，即数据集总共有b个类别； $x^{(i)} \in [x_1,x_2,...,x_n]$ ，即总共有n个输入特征。针对一个新的样本x，我们需要预测y的值，即对x进行分类。这是个典型的机器学习里的分类问题。