【机器学习算法介绍】朴素贝叶斯

Juicy B

已于 2022-08-28 17:50:53 修改

阅读量380

点赞数 1

分类专栏：机器学习文章标签：算法机器学习概率论

于 2021-10-09 20:11:26 首次发布

本文链接：https://blog.csdn.net/qq_42554780/article/details/120678324

版权

机器学习专栏收录该内容

6 篇文章 7 订阅

订阅专栏

文章目录

1 概述

一种监督学习算法
“朴素”的原因：假设所有特征之间相互独立
既可以用于处理连续数据，又可以用于处理离散数据
- 处理连续数据的方法：
  - Gaussian Naive Bayes（高斯朴素贝叶斯）
- 处理离散数据的方法（常用于文本分类任务）：
  - Multinomial Naive Bayes（多项式朴素贝叶斯）
  - Bernoulli Naive Bayes（伯努利朴素贝叶斯）
  - Complement Naive Bayes(多项式朴素贝叶斯的加强版)
思路较简单，速度非常快

2 原理

2.1 贝叶斯定理

设当前要预测的样本为 $\boldsymbol x$ ，它拥有 $x_1,x_2, ...,x_n$ 这 $n$ 个特征。则 $\boldsymbol x$ 属于某一类别 $\boldsymbol y$ 的概率为：

$\mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots, x_n \mid y)} {P(x_1, \dots, x_n)}$

$P (y)$ ：类的先验概率，即训练集中第 y 类样本的个数与整个训练集样本个数的比值
$P(x_1,...,x_n)$ : 对于给定的样本 $\boldsymbol x$ ，该值为常数
$P(x_1,...,x_n \ | \ y)$ : 样本 $\boldsymbol x$ 相对于类 $\boldsymbol y$ 的条件概率

2.2 属性条件独立假设

对于给定的类别，假设所有特征相互独立，每个特征独立地对分类结果产生影响，则有：
$\mid x_1, \dots, x_n) = \frac{P(y) \prod_{i=1}^{n} P(x_i \mid y)} {P(x_1, \dots, x_n)}$

$P(x_i \ | \ y)$ : 样本 $\boldsymbol x$ 的第 $ i $ 个特征相对于类 $y$ 的条件概率

由于 $P(x_1,...,x_n)$ 为常数，故：
$\mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$
预测的依据：使得概率 $\prod_{i=1}^{n} P(x_i \mid y)$ 最大的对应类别标签 $y$ ，就是最终的预测结果：

$\hat{y} = \arg\max_y P(y) \prod_{i=1}^{n} P(x_i \mid y)$

$P(x_i \ | \ y)$ 对于不同朴素贝叶斯方法，计算的方法也不相同。下面会介绍到几种常用的朴素贝叶斯方法。

2.3 高斯朴素贝叶斯

2.3.1 计算方法

用于特征为连续值时的分类任务。对应 $P(x_i \ | \ y)$ 的计算方法如下：
$P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)$

$\mu_y$ ：类别 $y$ 的所有样本中第 i 个特征的所有特征值的均值
$\sigma_y^2$ ：类别 $y$ 的所有样本中第 i 个特征的所有特征值的方差

下面以鸢尾花数据集为例，介绍一下总体的计算细节。

以原始数据集中的 Species=iris-setosa （下面的公式中简写为setosa）的样本为训练集，示例如下：

在这里插入图片描述

接下来要对一个新样本 $\boldsymbol x = [4.8, 3.8, 1.6, 0.3]$ 进行预测。

以 SpealLengthCm 特征（简写为 $x_0$ ）为例：

求指定类中特征的均值和方差
$\mu(x_0)≈4.860$

$\sigma^2(x_0)≈0.034$
将求出的均值和方差代入高斯概率密度函数
$P(x_0 \mid y=setosa) = \frac{1}{\sqrt{2\pi×0.034}} \exp\left(-\frac{(x_0 - 4.860)^2}{2×0.034}\right)$
将样本 x 的第一个特征的值代入上述公式：
$P(x_0=4.8 \mid y=setosa) = \frac{1}{\sqrt{2\pi×0.034}} \exp\left(-\frac{(4.800 - 4.860)^2}{2×0.034}\right)$
其他特征的求法类推
利用公式：
$\mid x_1, \dots, x_n) \propto P(y=setosa) \prod_{i=1}^{n} P(x_i \mid y)$
即可求出样本 $\boldsymbol x$ 属于 iris-setosa 类的概率

注意：PetalLengthCm 特征中所有的值均为0.2, 故方差为0，若使用高斯概率密度函数会出现运算错误

2.3.2 API调用

class sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)

priors: array-like of shape (n_classes,)

类的先前概率。

var_smoothing: float, default=1e-9

在计算稳定性的方差中添加的所有函数最大方差的一部分。

下面给出调用的示例。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)

2.4 Multinomial Naive Bayes

2.4.1 计算方法

对应 $P(x_i \ | \ y )$ 的计算方法如下：
$P(x_i = t \mid y = c \: ;\, \alpha) = \frac{ N_{tic} + \alpha}{N_{c} + \alpha n_i},$

$N_{tic}$ : 类别为 $c$ 的样本中第 i 个特征的值为 t 的个数
$N_c$ : 类别为$ c $的样本的总个数
$\alpha$ : 拉普拉斯平滑系数，一般设置为1，防止概率为 0 的情况出现
$n_i$ : 第 $i$ 个特征中可能出现的值的数量

所有 $P(x_i \ | \ y )$ 求出来之后进行连乘，再与类 y 的先验概率相乘，就得到了样本 x 属于类别 y 的概率：
$\mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$
以西瓜书中的西瓜数据集为例，训练集如下：

在这里插入图片描述

对下面样本新瓜进行预测：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hiPZlaTc-1633781277989)(pics/3.png)]

先求所有类别的先验概率：

在这里插入图片描述

再求各个 $P(x_i \ | \ y)$ ，即预测样本的各个特征在类 $y$ 中出现的概率

在这里插入图片描述

求该瓜属于分别属于好瓜（是）和好瓜（否）的概率
$P (好瓜 = 是 ∣ 新瓜) = 0.471 \times 0.375 \times 0.375 \times 0.750 \times 0.875 \times 0.750 \times 0.750 \approx 0.024$

$P (好瓜 = 否 ∣ 新瓜) = 0.529 \times 0.333 \times 0.333 \times 0.444 \times 0.222 \times 0.222 \times 0.667 \approx 0.00086$
做出预测

由于 $0.024 > 0.00086$ ，故该新瓜预测为“好瓜”。

2.4.2 文本分类情景下的计算方法

在文本分类情境下，MNB的条件概率计算公式如下：
$P(x_i \mid y) = \frac{ N_{yi} + \alpha}{N_y + \alpha n}$

$N_{yi}$ : 对于一个要预测的新句子 $\boldsymbol x$ ，其第 i 个单词在类别为 y 的各个文档中出现的总次数
$N_y$ : 类别为 $\boldsymbol y$ 的所有文本中的总词数
$\alpha$ : 拉普拉斯平滑系数，默认设置为1
$n$ ：文本的词汇量（即无重复单词的个数）

这样就可以用如下公式求出某一段文本 x 属于给定类别 y 的概率：
$\mid x_1, \dots, x_n) \propto P(y) \prod_{i=1}^{n} P(x_i \mid y)$
下面计算细节示例如下。

假设有如下训练文本
在这里插入图片描述

给定一个新文本样本: China, China, China, Tokyo, Japan，对其进行分类。

将新样本转化为文本向量：
$d = (C h i n a, C h i n a, C h i n a, T o k y o, J a p a n)$
确定类别的集合：
$Y=\{yes, no\}$
分析单词的分布情况：
- 类 yes：共8个单词，
- 类 no ：共3个单词
- 训练样本单词总数：11
  
  故类先验概率为：
$P(yes)=\frac{8}{11}, P(no)=\frac{3}{11}$
- 词汇量（不重复单词的个数）：6
计算类条件概率：

$\frac{5+1}{8+6}= \frac{3}{7}$

$\frac{0+1}{8+6}= \frac{1}{14}$

$\frac{1+1}{3+6}= \frac{2}{9}$

计算后验概率：
$d)=\frac{8}{11}×\frac{3}{7}×\frac{3}{7}×\frac{3}{7}×\frac{1}{14}×\frac{1}{14}≈0.000292$

$d)=\frac{3}{11}×\frac{2}{9}×\frac{2}{9}×\frac{2}{9}×\frac{2}{9}×\frac{2}{9}≈0.000148$
做出预测

由于0.000292 > 0.000148，故该文本归类为yes，即China。

2.4.3 API调用

class sklearn.naive_bayes.MultinomialNB(*, alpha=1.0,fit_prior=True,class_prior=None)

alpha: float, default=1.0

Additive (Laplace/Lidstone) smoothing parameter (0 for no smoothing).

fit_prior: bool, default=True

Whether to learn class prior probabilities or not. If false, a uniform prior will be used.

class_prior: array-like of shape (n_classes,), default=None

Prior probabilities of the classes. If specified the priors are not adjusted according to the data.

2.5 Bernoulli Naive Bayes

每个特征均用布尔值表示。在文本分类情景下，1表示当前词有在文档中出现过，0表示没有出现过。

当出现非0和1的其他值时，根据设定的阈值将样本特征二值化。

2.5.1 计算方法

$P(x_i \mid y) = P(i \mid y) x_i + (1 - P(i \mid y)) (1 - x_i)$

其中：
$\mid y) = \frac{ N_{yi} + \alpha}{N_y + \alpha n}$

$x_i$ ：特征值，非1即0，表示所对应单词是否在文本中出现过
$N_{yi}$ : 类 $y$ 下包含第 i 个单词的文件数
$N_y$ 类别为 $y$ 的文本的总数
$\alpha$ : 拉普拉斯平滑系数，默认设置为1
$n$ ：总的文本类别数

训练文本：

在这里插入图片描述

给定一段新文本：China, Japan, Tokyo, Beijing, Shanghai, Macao，对其进行分类。

将新样本转化为文本向量：
$d = (C h i n a, J a p a n, B e i j i n g, S h a n g h a i, M a c a o, T o k y o)$
确定类别的集合：
$Y=\{yes, no\}$
分析文件的分布情况：
- 类yes：共3个文件
- 类no ：共1个文件
- 总文件数：4
  
  故类先验概率为：
$P(yes)=\frac{3}{4}, P(no)=\frac{1}{4}$
- 总的文本类别数（只有yes和no）：2
计算类条件概率：

$\frac{3+1}{3+2}= \frac{4}{5}$

$\frac{0+1}{3+2}= \frac{1}{5}$

$\frac{1+1}{3+2}= \frac{2}{5}$

$\frac{0+1}{3+2}= \frac{1}{5}$

$\frac{1+1}{1+2}= \frac{2}{3}$

$\frac{0+1}{1+2}= \frac{1}{3}$

计算后验概率：
$d)=\frac{3}{4}×\frac{4}{5}×(1-\frac{1}{5}) ×\frac{2}{5}×\frac{2}{5}×\frac{2}{5}×(1-\frac{1}{5})≈0.025$

$d)=\frac{1}{4}×\frac{2}{3}×\frac{2}{3}×\frac{2}{3}×(1-\frac{1}{3}) ×(1-\frac{1}{3})×(1-\frac{1}{3})≈0.022$
做出预测

由于0.025> 0.022，故该文本归类为yes，即是China。

2.5.2 API调用

class sklearn.naive_bayes.BernoulliNB(*, alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

alpha: float, default=1.0

拉普拉斯平滑参数（0表示无平滑）

binarize: float or None, default=0.0

Threshold for binarizing (mapping to booleans) of sample features. If None, input is presumed to already consist of binary vectors.

fit_prior: bool, default=True

Whether to learn class prior probabilities or not. If false, a uniform prior will be used.

class_prior: array-like of shape (n_classes,), default=None

Prior probabilities of the classes. If specified the priors are not adjusted according to the data.