机器学习——朴素贝叶斯

最新推荐文章于 2025-04-15 22:13:30 发布

ByteKun&

最新推荐文章于 2025-04-15 22:13:30 发布

阅读量2.1k

点赞数 12

分类专栏：机器学习文章标签：机器学习人工智能笔记 sklearn 朴素贝叶斯

本文链接：https://blog.csdn.net/CXDNW/article/details/141199199

版权

机器学习专栏收录该内容

15 篇文章

订阅专栏

补充：什么时候使用对数似然，什么时候使用布里尔分数？

3. 可靠性曲线 Reliability Curve

概率密度曲线和概率分布直方图：

补充：校准可靠性曲线

四、sklearn中的朴素贝叶斯

1. 高斯朴素贝叶斯（GaussianNB）

2. 多项式朴素贝叶斯（MultinomialNB）

3. 伯努利朴素贝叶斯（BernoulliNB）

4. 补集朴素贝叶斯ComplementNB

五、其他理解

一、认识朴素贝叶斯

1. 介绍

算法得出的结论，永远不是 100% 确定的，更多的是 判断出了一种 “ 样本的标签更可能是某类的可能性 ”，而非一种 “ 确定 ”。

决策树使用的是叶子节点上占比较多的标签所占的比例（接口 predict_proba 调用），逻辑回归使用的是 sigmoid函数压缩后的似然（接口 predict_proba 调用），而 SVM 使用的是样本点到决策边界的距离（接口 decision_function 调用）。但这些指标的本质，都是一种 “类概率” 的表示，可以 通过归一化或 sigmoid函数将这些指标压缩到 0~1 之间，让他们表示模型对预测的结果究竟有多大的把握（置信度）。

朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督学习算法，是一种专注分类的算法，是真正的概率算法。

2. 原理

举个例子，让 X 为 “气温”，Y 为 “七星瓢虫冬眠”，则 X 和 Y 可能的取值分为别 x 和 y，其中 x =｛0, 1｝，0 表示没有下降到 0 度以下，1 表示下降到了 0 度以下。y =｛0,1｝，其中 0 表示否，1 表示是。

联合概率	“ X 取值为 x ” 和 “ Y 取值为 y ” 两个事件同时发生的概率，表示为 $P(X=x,Y=y)$
条件概率	在" X 取值为 x " 的前提下，" Y 取值为 y " 的概率，表示为 $P(Y=y\|X=x)$

两个事件分别发生的概率为：

$P(X=1)$ = 50%，则是说明，气温下降到 0 度以下的可能性为 50%，则 $P(X=0)$ = 1 - $P(X=1)$ = 50%。

$P(Y=1)$ = 70%，则是说明，七星瓢虫会冬眠的可能性为 70%，则 $P(Y=0)$ = 1 - $P(Y=1)$ = 30%。

这两个事件的联合概率为 $P(X=1,Y=1)$ ，这个概率代表了气温下降到 0 度以下和七星瓢虫去冬眠这两件事情同时，独立发生的概率。

两个事件之间的条件概率为 $P(Y=1|X=1)$ ，这个概率代表了，当气温下降到 0 度以下这个条件被满足之后，七星瓢虫会去冬眠的概率。也就是说，气温下降到 0 度以下，一定程度上影响了七星瓢虫去冬眠这个事件。

由概率论可知：

简单些可写成

由此可以得到 贝叶斯理论等式：

这个式子，可以把 特征 X 当成是条件事件，而 要求解的标签 Y 当成是被满足条件后会被影响的结果，而两者之间的概率关系就是 $P(Y|X)$ ，这个概率在机器学习中，被称之为是 标签的后验概率（posterior probability），即是说先知道了条件，再去求解结果。而标签 Y 在没有任何条件限制下取值为某个值的概率，被写作 $P(Y)$ ，与后验概率相反，这是 完全没有任何条件限制的，标签的先验概率（prior probability）。而 $P(X|Y)$ 被称为 “ 类的条件概率 ” ，表示当 Y 的取值固定的时候，X 为某个值的概率。

对每一个样本，不可能只有一个特征 X，而是会存在着包含 n 个特征的取值的特征向量 X。因此机器学习中的后验概率，被写作 $P(Y|X)$ ，其中 X 中包含样本在 n 个特征 $X_i$ 上的分别的取值 $x_i$ ，由此可以表示为

因此存在：

以此为基础，机器学习中，对每一个样本有：

对于分子而言， $P(Y=1)$ 就是少数类占总样本量的比例，求解 $P(X|Y=1)$ 时，假设只有两个特征 X1、X2，由联合概率公式，可以有如下证明：

特征 X 若推广到 n 个上，则有：

这个式子证明，在 Y=1 的条件下，多个特征的取值被同时取到的概率，就等于 Y=1 的条件下，多个特征的取值被分别取到的概率相乘。其中，X1 与 X2 条件独立，是在假设 X2 是一个对 X1 在某个条件下的取值完全无影响的变量。

假设特征之间是有条件独立的，可以解决众多问题，也简化了很多计算过程，这是朴素贝叶斯被称为 “朴素” 的理由。

再求分母 $P(X)$ ，使用全概率公式来求解：

其中 m 代表标签的种类，对于二分类而言有：

3. 最大后验估计

对于这个式子来说，从训练集中求解 $P(Y=1)$ 很容易，但 $P(Y)$ 和 $P(x_i|Y=1)$ 这一部分就没有这么容易了。随着特征数目的逐渐变多，分母上的计算量也会成指数级增长，而分子中的 $P(x_i|Y=1)$ 也越来越难计算。

在比较两个类别的时候，两个概率计算的分母是一致的，因此可以不用计算分母，先计算出分子的大小，之后就可以通过让两个分子相加，来获得分母的值，以此来避免计算一个样本上所有特征下的概率 $P(X)$ 。在最后分类的时候，选择 $P(Y=1|X)$ 和 $P(Y=0|X)$ 中较大的一个所对应的 Y 的取值，作为这个样本的分类。这个过程，被我们称为 " 最大后验估计〞（MAP）。

在最大后验估计中，只需要求解分子，主要是求解一个样本下每个特征取值下的概率 $P(x_i|Y=y_i)$ ，再求连乘便能够获得相应的概率。

二、连续型变量的概率估计

要处理连续型变量，可以有两种方法。第一种是把连续型变量分成 j 个箱，把连续型强行变成分类型变量。分箱后，将每个箱中的均值 $\overline{x_i}$ 当作一个特征 $X_i$ 上的取值，然后计算箱 j 中 Y=1 所占的比例，就是 $P(x_i|Y=1)$ 。这个过程的主要问题是，箱子不能太大也不能太小，如果箱子太大，就失去了分箱的基本意义，如果箱子太小，可能每个箱子里就没有足够的样本来计算 $P(x_i|Y)$ ，因此必须要适当地衡量分箱效果。

第二种可以直接通过概率论中计算连续型变量的概率分布。在分类型变量的情况中，比如掷骰子的情况，有且仅有六种可能的结果 1~6，并且每种结果的可能性为 1/6。此时每个基本的随机事件发生的概率都是相等的，所以可以使用 1/N 来表示有 N 个基本随机事件可以发生的情况。

思考一个简单的问题：汉堡王向客户承诺说他们的汉堡至少是 100g 一个，但如果我们去汉堡王买个汉堡，可以预料到它肯定不是标准的 100g。设汉堡重量为特征 $X_i$ ，100g 就是我们的取值 $x_i$ 。如果买 n 个汉堡，很可能 n 个汉堡都不一样重，只要称重足够精确，可以买无限个汉堡，可能得到无限个重量，可以有无限个基本随机事件的发生。

其中我买到一个汉堡是 100g 的概率 $P(100g | Y)$ 可以有：

当一个特征下有无数种可能发生的事件时，这个特征的取值就是连续型的（比如特征 “汉堡的重量”）。从上面的例子可以看得出，当特征为连续型时，随机取到某一个事件发生的概率就为 0.

如果随机买一个汉堡，汉堡的重量在 98g~102g 之间的概率，即是说，现在求解概率 $P(98g<z<102g)$ 。那现在随机购买 100个汉堡，称重后记下所有重量在 98g~102g 之间的汉堡个数，假设为 m，则就有：

当购买无数个汉堡的时候形成的则条曲线就叫做概率密度曲线（probability density function，PDF）。一条曲线下的面积，就是这条曲线所代表的函数的积分。如果定义曲线可以用函数 $f(x)$ 来表示的话，整条曲线下的面积就是：

特征 $X_i$ ，在区间 [ $x_i$ , $x_i$ + 𝛜 ] 中取值的概率可以表示为：

现在就将求解连续型变量下某个点取值的概率问题，转化成了求解一个函数 $f(x_i)$ 在点 $x_i$ 上的取值的问题。接下来只要找到 $f(x)$ ，就可以求解出不同的条件概率了。

现实中，往往假设 $f(x)$ 是满足某种统计学中的分布的，最常见的就是高斯分布（正太分布），常用的还有伯努利分布，多项式分布。这些分布对应着不同的贝叶斯算法，他们的本质都是相同的，只不过计算之中的 $f(x)$ 不同。每个 $f(x)$ 都对应着一系列需要去估计的参数。

在贝叶斯中，fit 过程其实是在估计对应分布的参数，predict 过程是在该参数下的分布中去进行概率预测。

三、概率类模型的评估指标

1. 布里尔分数 Brier Score

概率预测的准确程度被称为 “校准程度”，是 衡量算法预测出的概率和真实结果的差异的一种方式。一种比较常用的指标叫做布里尔分数。

其中 N 是样本数量， $p_i$ 为朴素贝叶斯预测出的概率， $o_i$ 是样本所对应的真实结果，只能取到 0 或者 1，如果事件发生则为 1，如果不发生则为 0。这个指标衡量了概率距离真实标签结果的差异。布里尔分数的范围是从 0 到 1，分数越高则预测结果越差劲，校准程度越差，因此 布里尔分数越接近 0 越好。

from sklearn.metrics import brier_score_loss
from sklearn.preprocessing import OneHotEncoder

# 新版 sklearn的 brier_score_loss不支持多分类了，所以需要对数据进行 独热处理
y_test_ = OneHotEncoder().fit_transform(y_test.reshape(-1,1)).toarray()

# y_test_.shape: (540, 10)
# prob.shape: (540, 10)

brier_score_loss(y_test_[:,1], prob[:,1], pos_label=1)

2. 对数似然函数Log Loss

另一种常用的概率损失衡量是 对数损失（log_loss），又叫做对数似然，逻辑损失或者交叉熵损失，它是多元逻辑回归以及一些 拓展算法，比如神经网络中使用的损失函数。

对于一个样本，如果样本的真实标签 $y_{true}$ 在｛0,1｝中取值，并且这个样本在类别 1 下的概率估计为 $y_{pred}$ ，则这个样本所对应的对数损失是：

它被定义为，对于 —个给定的概率分类器，在预测概率为条件的情况下，真实概率发生的可能性的负对数。由于是损失，因此对数似然函数的取值越小，则证明概率估计越准确，模型越理想。

补充：什么时候使用对数似然，什么时候使用布里尔分数？

在现实应用中，对数似然函数是概率类模型评估的黄金指标，往往是评估概率类模型的优先选择。但是它也有一些缺点：

① 它没有界，不像布里尔分数有上限，可以作为模型效果的参考。

② 它的解释性不如布里尔分数，难与非技术人员去交流对数似然存在的可靠性和必要性。

③ 它在以最优化为目标的模型上明显表现更好。

④ 它有一些数学上的问题，比如不能接受为 0 或 1 的概率，否则的话对数似然就会取到极限值（考虑以 e 为底的自然对数在取到 0 或 1 的时候的情况）。

需求	优先使用对数似然	优先使用布里尔分数
衡量模型	要对比多个模型，或者衡量模型的不同变化	衡量单一模型的表现
可解释性	机器学习和深度学习之间的行家交流，学术论文	商业报告，老板开会，业务模型的衡量
最优化指向	逻辑回归，SVC	朴素贝叶斯
数学问题	概率只能无限接近于 0 或 1，无法取到 0 或 1	概率可以取到 0 或 1，比如树，随机森林

3. 可靠性曲线 Reliability Curve

可靠性曲线（reliability curve），又叫做概率校准曲线（probability calibration curve），可靠性图（reliabilitydiagrams），这是一条以预测概率为横坐标，真实标签为纵坐标的曲线。我们希望预测慨率和真实值越接近越好，最好两者相等，因此 一个模型 / 算法的概率校准曲线越靠近对角线越好。

通常来说，曲线用于二分类的情况最多。在绘图之前将数据进行分箱，然后规定每个箱子中真实的少数类所占的比例为这个箱上的真实概率 trueproba，这个箱子中预测概率的均值为这个箱子的预测概率 predproba，然后以 trueproba 为纵坐标，predproba 为横坐标，来绘制可靠性曲线。

# calibration_curve类

sklearn.calibration.calibration_curve(y_true, y_prob, *, normalize=False, n_bins=5, strategy='uniform')

参数	含义
y_true	真实标签
y_prob	预测返回的，正类别下的概率值或置信度
normalize	布尔值，默认 False 是否将 y_prob 中输入的内容归一化到 [0,1] 之间，比如说，当 y_prob 并不是真正的概率的时候可以使用。如果这是为True ，则会将 y_prob 中最小的值归一化为 0 ，最大值归一化为 1 。
n_bins	整数值，表示分箱的个数。如果箱数很大，则需要更多的数据。

返回	含义
trueproba	可靠性曲线的纵坐标，结构为(n_bins, )，是每个箱子中少数类(Y=1)的占比
predproba	可靠性曲线的横坐标，结构为(n_bins, )，是每个箱子中概率的均值

对于贝叶斯，如果概率校准曲线呈现 sigmoid 函数的镜像的情况，则说明数据集中的特征不是相互条件独立的。贝叶斯原理中的 “朴素” 原则：特征相互条件独立原则被违反了。

概率密度曲线和概率分布直方图：

概率密度曲线：横坐标是样本的取值，纵坐标是落在这个样本取值区间中的样本个数，衡量的是每个 X 的取值区间之内有多少样本。服从高斯分布的是 X 的取值上的样本分布。

概率分布直方图：横坐标是概率的取值 [0, 1]，纵坐标是落在这个概率取值范围中的样本的个数，衡量的是每个概率取值区间之内有多少样本。这个分布，是没有任何假设的。

补充：校准可靠性曲线

基于 Platt 的 Sigmoid 模型的参数校准方法，一种是基于等渗回归（isotonic calibration）的非参数的校准方法。

class sklearn.calibration.CalibratedClassifierCV(base_estimator=None, method=’sigmoid’, cv=’warn’)

参数	含义
base_estimator	需要校准其输出决策功能的分类器，必须存在 predict_proba 或 decision_function 接口。如果参数 cv = prefit ，分类器必须已经拟合数据完毕。
cv	整数，确定交叉验证的策略。可能输入是： ① None ，表示使用默认的 3 折交叉验证 ② 任意整数，指定折数 ③对于输入整数和 None 的情况下来说，如果是二分类，则自动使用类 sklearn.model_selection.StratifiedKFold 进行折数分割。如果y 是连续型变量，则使用 sklearn.model_selection.KFold 进行分割。 ④ 已经使用其他类建好的交叉验证模式或生成器 cv ⑤ 可迭代的，已经分割完毕的测试集和训练集索引数组 ⑥ 输入“ prefit” ，则假设已经在分类器上拟合完毕数据。在这种模式下，使用者必须手动确定用来拟合分类器的数据与即将倍校准的数据没有交集
method	进行概率校准的方法，可输入 "sigmoid" 或者 "isotonic" ① 输入 'sigmoid' ，使用基于 Platt 的 Sigmoid 模型来进行校准 ② 输入 'isotonic' ，使用等渗回归来进行校准当校准的样本量太少（比如，小于等于1000 个测试样本）的时候，不建议使用等渗回归，因为它倾向于过拟合。样本量过少时请使用sigmoids ，即 Platt 校准。

# 测试
gnb = GaussianNB().fit(Xtrain, Ytrain)
gnb.score(Xtest, Ytest)
brier_score_loss(Ytest, gnb.predict_proba(Xtest)[:,1], pos_label = 1)

gnbisotonic = CalibratedClassifierCV(gnb, cv=2, method='isotonic').fit(Xtrain, Ytrain)
gnbisotonic.score(Xtest, Ytest)
brier_score_loss(Ytest, gnbisotonic.predict_proba(Xtest)[:,1], pos_label = 1)

当数据的特征之间不是相互条件独立的时候，使用 lsotonic 方式来校准概率曲线，可以得到不错的结果，让模型在预测上更加谦虚。

四、sklearn中的朴素贝叶斯

类	含义
naive_bayes.BernoulliNB	伯努利分布下的朴素贝叶斯
naive_bayes.GaussianNB	高斯分布下的朴素贝叶斯
naive_bayes.MultinomialNB	多项式分布下的朴素贝叶斯
naive_bayes.ComplementNB	补集朴素贝叶斯
linear_model.BayesianRidge	贝叶斯岭回归，在参数估计过程中使用贝叶斯回归技术来包括正则化参数

1. 高斯朴素贝叶斯（GaussianNB）

class sklearn.naive_bayes.GaussianNB (priors=None, var_smoothing=1e-09)

参数	含义
prior	可输入任何类数组结构，形状为（ n_classes ，）表示类的先验概率。如果指定，则不根据数据调整先验，如果不指定，则自行根据数据计算先验概率。
var_smoothing	浮点数，可不填（默认值 = 1e-9 ）在估计方差时，为了追求估计的稳定性，将所有特征的方差中最大的方差以某个比例添加到估计的方差中。这个比例，由 var_smoothing 参数控制。

gnb = GaussianNB().fit(Xtrain, Ytrain)

#查看分数
acc_score = gnb.score(Xtest,Ytest)

#查看预测结果
Y_pred = gnb.predict(Xtest)

#查看预测的概率结果
prob = gnb.predict_proba(Xtest)

2. 多项式朴素贝叶斯（MultinomialNB）

它也是基于原始的贝叶斯理论，但假设概率分布是服从一个简单多项式分布。多项式分布来源于统计学中的多项式实验，这种实验可以具体解释为：实验包括 n 次重复试验，每项试验都有不同的可能结果。在任何给定的试验中，特定结果发生的概率是不变的。

多项式分布擅长的是分类型变量，在其原理假设中， $P(x_i|Y)$ 的概率是离散的，并且不同 $x_i$ 下的 $P(x_i|Y)$ 相互独立，互不影响。多项式实验中的实验结果都很具体，它所涉及的特征往往是次数、频率、计数，出现与否这样的概念，这些概念都是离散的正整数，因此 sklearn 中的多项式朴素贝叶斯不接受负值的输入。

从数学的角度来看，在一种标签类别 Y=c 下，有一组分别对应特征的参数向量 $\theta_c=(\theta_{c1},\theta_{c2},\ldots,\theta_{cn})$ ，其中 n 表示特征的总数。一个 𝜃 表示这个标签类别下的第 i 个特征所对应的参数。这个参数被定义为：

记作 $P(x_i|Y=c)$ ，表示当 Y=c 这个条件固定的时候，一组样本在 $X_i$ 这个特征上的取值被取到的概率。

注：在高斯朴素贝叶斯中求解的概率 $P(x_i|Y)$ 是对于一个样本来说，而现在求解的 $P(x_i|Y=c)$ 是对于一个特征 $X_i$ 来说的概率。

对于一个在标签类别 Y=c 下，结构为（m,n）的特征矩阵来说，有：

其中每个 $x_{ij}$ 都是特征 $X_i$ 发生的次数。通过平滑后的最大似然估计来求解参数 $\theta_y$ :

对于每个特征， $\sum_{y_i=c}^{}{x_{ji}}$ 是特征 $X_i$ 下所有标签为 c 的样本的特征取值之和，即特征矩阵中每一列的和。 $\sum_{i=1}^{n}{\sum_{y_i=c}^{}{x_{ji}}}$ 是所有标签类别为 c 的样本上，所有特征的取值之和，即特征矩阵 $X_i$ 中所有元素的和。a 被称为 平滑系数，令 a＞0 来防止训练数据中出现过的一些词汇没有出现在测试集中导致的 0 概率，以避免让参数 𝜃 为 0 的情况。

如果将 a 设置为 1，则这个平滑叫做 拉普拉斯平滑，如果 a 小于 1，则我们把它叫做 利德斯通平滑。两种平滑都属于自然语言处理中比较常用的用来平滑分类数据的统计手段。

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)

参数	含义
alpha	浮点数 , 可不填 ( 默认为 1.0) 拉普拉斯或利德斯通平滑的参数，如果设置为 0 则表示完全没有平滑选项。需要注意的是，平滑相当于人为给概率加上一些噪音，因此a设置得越大，多项式朴素贝叶斯的精确性会越低（虽然影响不是非常大），布里尔分数也会逐渐升高。
fit_prior	布尔值 , 可不填 ( 默认为 True) 是否学习先验概率 $P(Y=c)$ 。如果设置为false ，则不使用先验概率，而使用统一先验概率（ uniform prior），即认为每个标签类出现的概率是 $\frac{1}{n\_classes}$ 。
class_prior	形似数组的结构，结构为 (n_classes, ) ，可不填（默认为 None ）类的先验概率 $P(Y=c)$ 。如果没有给出具体的先验概率则自动根据数据来进行计算。

如果采用哑变量方式的分箱处理，多项式贝叶斯的效果会突飞猛进。

3. 伯努利朴素贝叶斯（BernoulliNB）

多元伯努利分布简单来说，就是 数据集中可以存在多个特征，但每个特征都是二分类的，可以以布尔变量表示，也可以表示为｛0，1} 或者｛-1，1} 等任意二分类组合。因此，这个类要求将样本转换为二分类特征向量，如果数据本身不是二分类的，可以使用类中专门用来二值化的参数 binarize 来改变数据。

伯努利贝叶斯类假设数据服从多元伯努利分布，并在此基础上应用朴素贝叶斯的训练和分类过程。

class sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

伯努利朴素贝叶斯	含义
alpha	浮点数 , 可不填 ( 默认为 1.0) 拉普拉斯或利德斯通平滑的参数，如果设置为 0 则表示完全没有平滑选项。需要注意的是，平滑相当于人为给概率加上一些噪音，因此设置得越大，多项式朴素贝叶斯的精确性会越低（虽然影响不是非常大），布里尔分数也会逐渐升高。
binarize	浮点数或 None ，可不填，默认为 0 将特征二值化的阈值，如果设定为 None ，则会假定说特征已经被二值化完毕
fit_prior	布尔值 , 可不填 ( 默认为 True) 是否学习先验概率。如果设置为 false，则不使用先验概率 $P(Y=c)$ ，而使用统一先验概率（uniform prior），即认为每个标签类出现的概率是 $\frac{1}{n\_classes}$
class_prior	形似数组的结构，结构为 (n_classes, ) ，可不填（默认为 None ）类的先验概率 $P(Y=c)$ 。如果没有给出具体的先验概率则自动根据数据来进行计算。

4. 补集朴素贝叶斯ComplementNB

补集朴素贝叶斯（complement naive Bayes，CNB）算法是标准多项式朴素贝叶斯算法的改进。它能够解决样本不平衡问题，并且能够一定程度上忽略朴素假设的补集朴素贝叶斯。

CNB 使用来自每个标签类别的补集的概率，并以此来计算每个特征的权重。

其中 j 表示每个样本， $x_{ij}$ 表示在样本 j 上对于特征 i 下的取值。a 是像标准多项式朴素贝叶斯中一样的平滑系数。 $\sum_{y_j\neq c}{x_{ij}}$ 指的是一个特征 i 下，所有标签类别不等于 c 值的样本的特征取值之和。而 $\sum_{i,y\neq c}{\sum_{i=1}^{n}{x_{ij}}}$ 是所有特征下所有标签类别不等于 c 值得样本的特征取值之和。这是多项式分布的逆向思路。

对于这个概率，对它取对数后得到权重。还可以选择除以它的 L2范式，以解决了在多项式分布中，特征取值比较多的样本（比如说比较长的文档）支配参数估计的情况。

索引	X1	X2
0	1	1
1	0	1

这种状况下，索引为 0 的样本就会在参数估计中占更多的权重。

如果一个样本下的 很多个随机事件同时发生，还 在一次实验中发生了多次，那这个样本在参数估计中也会占有更大的权重。

基于这个权重，补充朴素贝叶斯中一个样本的预测规则为：

即求解出的最小补集概率所对应的标签就是样本的标签，因为 Y≠c 的概率越小，则意味着 Y=c 的概率越大，所以样本属于标签类别 c。

class sklearn.naive_bayes.ComplementNB(alpha=1.0, fit_prior=True, class_prior=None, norm=False)

补集朴素贝叶斯	含义
alpha	浮点数 , 可不填 ( 默认为 1.0) 拉普拉斯或利德斯通平滑的参数，如果设置为 0 则表示完全没有平滑选项。需要注意的是，平滑相当于人为给概率加上一些噪音，因此设置得越大，多项式朴素贝叶斯的精确性会越低（虽然影响不是非常大），布里尔分数也会逐渐升高。
norm	布尔值，可不填，默认 False 在计算权重的时候是否适用 L2 范式来规范权重的大小。默认不进行规范，即不跟从补集朴素贝叶斯算法的全部内容，如果希望进行规范，请设置为True 。
fit_prior	布尔值 , 可不填 ( 默认为 True) 是否学习先验概率 $P(Y=c)$ 。如果设置为false ，则不使用先验概率，而使用统一先验概率（ uniform prior），即认为每个标签类出现的概率是 $\frac{1}{n\_classes}$ 。
class_prior	形似数组的结构，结构为 (n_classes, ) ，可不填（默认为 None ）类的先验概率 $P(Y=c)$ 。如果没有给出具体的先验概率则自动根据数据来进行计算。

五、其他理解

1. 由于贝叶斯是从概率角度进行估计，它所需要的样本量比较少，极端情况下甚至可以使用1%的数据作为训练集，依然可以得到很好的拟合效果。

2. 与 SVM 和随机森林相比，朴素贝叶斯运行速度更快，因为求解 $P(X_i|Y)$ 本质是在每个特征上单独对概率进行计算，然后再求乘积，所以每个特征上的计算可以是独立并且并行的，因此贝叶斯的计算速度比较快。

3. 贝叶斯天生学习能力比较弱。样本量越大，贝叶斯需要学习的东西越多，对训练集的拟合程度也越来越差。反而比较少量的样本可以让贝叶斯有较高的训练准确率。

4. 所有模型在样本量很少的时候都是出于过拟合状态的（训练集上表现好，测试集上表现糟糕），但随着样本的逐渐增多，过拟合问题都逐渐消失了，不过每个模型的处理手段不同。比较强大的分类器，比如 SVM，随机森林和逻辑回归，是依靠快速升高模型在测试集上的表现来减轻过拟合问题。相对的，决策树虽然也是通过提高模型在测试集上的表现来减轻过拟合，但随着训练样本的增加，模型在测试集上的表现善生都非常缓慢。朴素贝叶斯独树一帜，是依赖训练集上的准确率下降，测试集上的准确率上开来逐渐解决过拟合问题。

5. 贝叶斯是速度很快，但分类效果一般，并且初次训练之后的结果就很接近算法极限的算法，几乎没有调参的余地。也就是说，如果追求对概率的预测，并且希望越准确越好，那应该先选择逻辑回归。如果数据十分复杂，或者是稀疏矩阵，那应坚定地使用贝叶斯。如果分类的且标不是要追求对概率的预测，那完全可以先试试看高斯朴素贝叶斯的效果，如果效果很不错，就很幸运地得到了—个表现优秀又快速的模型。如果没有得到比较好的结果，那我们完全可以选择再更换成更加复杂的模型。

6. 概率校正对于原本的可靠性曲线是形容 Sigmoid 形状的曲线的算法比较有效。