机器学习之朴素贝叶斯

最新推荐文章于 2023-06-28 17:15:20 发布

西西先生666

最新推荐文章于 2023-06-28 17:15:20 发布

阅读量285

点赞数

分类专栏：机器学习文章标签： python 机器学习朴素贝叶斯算法

本文链接：https://blog.csdn.net/qq_40216188/article/details/118999384

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

机器学习之朴素贝叶斯

一、朴素贝叶斯算法原理
- 1.1 朴素贝叶斯假设
- 1.2 朴素贝叶斯参数估计：
二、朴素贝叶斯代码实现

一、朴素贝叶斯算法原理

1.1 朴素贝叶斯假设

对于分类样本 $X_1^{(1)}, X_2^{(1)},...,X_n^{(1)}, y_1),...,(X_1^{(m)}, X_2^{(m)},...,X_n^{(m)}, y_m)$ ，共 $m$ 个样本， $n$ 个特征，输出 $k$ 个类，定义为 $C_1,C_2,..,C_K$ 。
给定先验分布 $P(Y=C_k), k=1,2,...,K$ ，即类别 $C_k$ 在训练集中出现的频率。
$\begin{aligned} P(X=x, Y=c_k)&=P(Y=C_k)P(X=x|Y=C_k)\\ &=P(Y=C_k)P(X_1=x_1, X_2=x_2,...,X_n=x_n|Y=C_k)\tag{1} \end{aligned}$
上式中第一项比较容易得到，第二项比较难求。
基于此，朴素贝叶斯假设： $X$ 的 $n$ 个维度之间相互独立（ $X$ 的特征之间相互独立）
$\begin{aligned} P(X=x, Y=c_k)&=P(Y=C_k)P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k)\\&...P(X_n=x_n|Y=C_k)\tag{2} \end{aligned}$
一般情况下，样本特征之间的独立性是弱成立的，尤其在数据量特别大的情况下，虽然牺牲了准确性，但模型在条件分布的计算上大大简化，这就是贝叶斯模型的选择。
对于测试样本 $X^{test}$ ，预测类别为 $C_{result}$
$\begin{aligned} C_{result}&=\argmax_{C_k}P(Y=C_k|X=X^{test})\\ &=\argmax_{C_k}\frac{P(X=X^{test}|Y=C_k)P(Y=C_k)}{P(X=X^{test})}\tag{3} \end{aligned}$
由于分母是常数，即 $argmax_{C_k} P(X=X^{test}|Y=C_k)P(Y=C_k)$ ，根据特征独立性假设，可化简为：
$\begin{aligned} C_{result}&=\argmax_{C_k}P(Y=C_k)\prod_{j=1}^nP(X_j=x_j^{test}|Y=C_k)\tag{4} \end{aligned}$

1.2 朴素贝叶斯参数估计：

计算 $P(Y=C_k)$ 和 $P(X_j=x_j^{test}|Y=C_k)$
1）其中 $P(Y=C_k)$ 可表示为：
$\begin{aligned} P(Y=C_k)&=\frac{m_k}{m}\tag{5} \end{aligned}$
式中 $m_k$ 为样本中类别 $C_k$ 出现的次数， $m$ 为样本总数。
2）对于 $P(X_j=x_j^{test}|Y=C_k), (j=1,2,...,n)$ 取决于先验条件：
a） $X_j$ 是离散的值：假设 $X_j$ 服从多项式分布
$\begin{aligned} P(X_j=x_j^{test}|Y=C_k)=\frac{m_{kj}^{test}}{m_k}\tag{6} \end{aligned}$
其中 $m_{k}$ 是样本类别 $C_k$ 的总的特征个数， $m_{kj}^{test}$ 是在类别为 $C_k$ 的样本中，第 $j$ 维特征 $x_j^{test}$ 出现的次数。
有时某些别类在样本中没有出现，会导致上式结果为0，会影响后验的估计，为了解决此问题，引入拉普拉斯平滑，即有：
$\begin{aligned} P(X_j=x_j^{test}|Y=C_k)=\frac{m_{kj}^{test}+\lambda}{m_k+o_j\lambda}\tag{7} \end{aligned}$
其中 $\lambda$ 是大于0的常数，常取1， $o_j$ 是第 $j$ 个特征的取值个数。
b） $X_j$ 是非常稀疏的离散值，即各个特征出现概率很低：
假设 $x_j$ 服从伯努利分布，即特征 $x_j$ 出现记为1，不出现记为0，即只要 $x_j$ 出现即可，不关注 $x_j$ 出现的次数，其中 $x_j^{test}$ 取值为 $[0, 1]$ 。
$\begin{aligned} P(X_j=x_j^{test}|Y=C_k)=P(x_j|Y=C_k)X_j^{test}+(1-P(x_j|Y=C_k))(1-X_j^{test})\tag{8} \end{aligned}$
c） $X_j$ 是连续值：通常取 $X_j$ 的先验概率为正态分布
即在样本类别 $C_k$ 中， $X_j$ 符合正态分布；
$\begin{aligned} P(X_j=x_j^{test}|Y=C_k)=\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(x_j^{test}-\mu_k)^2}{2\sigma_k^2})\tag{9} \end{aligned}$
其中 $\mu_k, \sigma_k^2$ 是正态分布的期望和方差，通过极大似然估计；
$\mu_k$ 是在类别 $C_k$ 中，所有 $x_j$ 的均值， $\sigma_k^2$ 是在类别 $C_k$ 中，所有 $x_j$ 的方差。

二、朴素贝叶斯代码实现

在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
这三个类适用的分类场景各不相同，一般来说，如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。如果如果样本特征的分大部分是多元离散值，使用MultinomialNB比较合适。而如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。

2.1 GaussianNB

在这里插入图片描述

import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y = np.array([1, 1, 1, 2, 2, 2])
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
#拟合数据
clf.fit(X, Y)
print("==Predict result by predict==")
print(clf.predict([[-0.8, -1]]))
print("==Predict result by predict_proba==")
print(clf.predict_proba([[-0.8, -1]]))
print("==Predict result by predict_log_proba==")
print(clf.predict_log_proba([[-0.8, -1]]))
#结果如下：
Predict result by predict
[1]
Predict result by predict_proba
[[  9.99999949e-01   5.05653254e-08]]
Predict result by predict_log_proba
[[ -5.05653266e-08  -1.67999998e+01]]

从上面的结果可以看出，测试样本[-0.8,-1]的类别预测为类别1。具体的测试样本[-0.8,-1]被预测为1的概率为9.99999949e-01 ，远远大于预测为2的概率5.05653254e-08。
此外，GaussianNB一个重要的功能是有 partial_fit方法，这个方法的一般用在如果训练集数据量非常大，一次不能全部载入内存的时候。这时我们可以把训练集分成若干等分，重复调用partial_fit来一步步的学习训练集，非常方便。