朴素贝叶斯算法

MASHU77

已于 2024-05-14 11:13:05 修改

阅读量1.2k

点赞数 23

文章标签：算法人工智能概率论

于 2024-05-13 00:50:52 首次发布

本文链接：https://blog.csdn.net/MASHU77/article/details/138763437

版权

一、简介

朴素贝叶斯算法是一种基于贝叶斯定理的分类算法，它简单而高效。它的经典应用案例为人所熟知：文本分类（如垃圾邮件过滤）。本文将介绍朴素贝叶斯算法的原理和实现。

二、算法原理

1.朴素贝叶斯方法

朴素贝叶斯方法在分类任务中需要计算先验概率、条件概率和后验概率。
先验概率是基于结论计算的概率，条件概率是通过不同的条件由因推果计算的概率，后验概率则是由先验概率和条件概率共同计算的结果，是作为判断最终结果的依据。
下面我通过一个数据集来直观的介绍这三种概率的计算方法。

2.先验概率

先验概率的计算公式如下：

$eq?P%28Y%20%3D%20c_%7Bi%7D%29%20%3D%20%5Cfrac%7BN_%7Bi%7D%7D%7BN%7D$

其中，Y 是类别变量，c_i 是类别的取值，N_i 是属于类别 c_i 的样本数量，N 是总样本数量。

该数据集中贷款结果为拒绝的数量是6，批准的数量为9，因此先验概率由数据集的贷款结果来计算的结果为：

P(拒绝) = 6/15 P(批准) = 9/15

3.条件概率

条件概率是朴素贝叶斯算法中最重要的部分，它的计算公式如下：

$eq?P%28A%7CB%29%20%3D%20%5Cfrac%7BP%28AB%29%7D%7BP%28B%29%7D$

基于条件概率可以通过P(B|A)求P(A|B)的就是贝叶斯定理：

$eq?P%28A%7CB%29%20%3D%20%5Cfrac%7BP%28B%7CA%29*P%28A%29%7D%7BP%28B%29%7D$

其中，P(A∣B) 是在给定B条件下A发生的概率，P(B∣A) 是在给定A条件下B发生的概率，P(A) 和 P(B) 分别是A和B的概率。

若有一组数据(工作：否，有房子：否，信誉：非常好)，假设贷款批准，则该数据的条件概率为：

P(工作：否|批准) = 4/9 P(有房子：否|批准) = 1/3 P(信誉：非常好|批准) = 4/9

4.后验概率

后验概率的计算是由先验概率和条件概率组成的，具体公式如下：

$eq?P%28Y%20%3D%20c_%7Bi%7D%7CX%20%3D%20f_%7B1%7D%2C%20X%20%3D%20f_%7B2%7D%2C...%2C%20X%20%3D%20f_%7Bn%7D%29%20%3D%20%5Cfrac%7BP%28Y%20%3D%20c_%7Bi%7D%29%5Cprod_%7Bi%3D1%7D%5E%7Bn%7DP%28X%3Df_%7Bi%7D%7CY%3Dc_%7Bi%7D%29%7D%7BP%28X%20%3D%20f_%7B1%7D%2C%20X%20%3D%20f_%7B2%7D%2C...%2C%20X%20%3D%20f_%7Bn%7D%29%7D$

由于对所有的P(Y = c_i)，上式的分母的值都是一样的，测算时可以忽略父母部分，因此最终的表示式为：

$eq?P%28Y%20%3D%20c_%7Bi%7D%7CX%20%3D%20f_%7B1%7D%2C...%2C%20X%20%3D%20f_%7Bn%7D%29%20%3D%20P%28Y%20%3D%20c_%7Bi%7D%29%5Cprod_%7Bi%3D1%7D%5E%7Bn%7DP%28X%3Df_%7Bi%7D%7CY%20%3D%20c_%7Bi%7D%29$

对于数据(工作：否，有房子：否，信誉：非常好)，它的后验概率为：

P(批准|工作：否,有房子：否,信誉：非常好) = P(批准)*P(工作：否|批准)*P(有房子：否|批准)*P(信誉：非常好) = 9/15 * 4/9 * 1/3 * 4/9 = 16/405 = 0.0395

同理P(拒绝|工作：否,有房子：否,信誉：非常好) = 6/15 * 1 * 1 * 0 = 0，计算表明该数据应该判批准，但是出现的0和1就不得不让人考虑某些决定性因素导致的结果单一化，这可能会造成我们结果预测错误，为了解决这个问题就引入了拉普拉斯平滑。

5.拉普拉斯平滑

拉普拉斯平滑通过在概率估计中引入一个小的正数（通常为1）来平滑概率分布。改变的公式为：

$eq?P%28Y%20%3D%20c_%7Bi%7D%7CX%20%3D%20f_%7Bi%7D%29%20%3D%20%5Cfrac%7BN_%7Bi%7D%20+%20a%7D%7BN%20+%20a*%5Cleft%20%7C%20Y%20%3D%20c_%7Bi%7D%20%5Cright%20%7C%7D$

a为指定系数，在我们的运算中取1，|Y=c_i|为特征c_i的数量，在计算先验概率时为2，即“拒绝”和“批准”。我们可以算出引入拉普拉斯平滑后的先验概率：

P(拒绝) = 7/17 P(批准) = 10/17

在按上述步骤可以算出该数据的条件概率、后验概率：

P(拒绝|工作：否,有房子：否,信誉：非常好) = 0.0236
P(批准|工作：否,有房子：否,信誉：非常好) = 0.0186

所以数据(工作：否，有房子：否，信誉：非常好)的最终结果是拒绝贷款。