sklearn学习笔记5：朴素贝叶斯

奔跑的蜗牛君666

已于 2022-12-25 12:16:16 修改

阅读量1k

点赞数

分类专栏： sklearn 文章标签： sklearn 学习

于 2022-12-07 19:38:11 首次发布

本文链接：https://blog.csdn.net/happylls666/article/details/125939875

版权

11 篇文章 7 订阅

订阅专栏

sklearn为我们提供了四个朴素贝叶斯的分类器

1.高斯朴素贝叶斯GaussianNB

这个类包含两个参数
prior：可输入任何类数组结构，表示类的先验概率。如果指定，则不根据数据调整先验，如果不指定，则自行根据数据计算先验概率P(Y)
var_smoothing：浮点数，可不填。在估计方差时，为了追求估计的稳定性，将所有特征的方差中最大的方差以某个比例添加到估计的方差中，这个比例，由var_smoothing参数控制
因为过于简单也意味着贝叶斯没有太多的参数可以调整，因此贝叶斯算法的成长空间并不大，如果贝叶斯算法的效果不是很理想，我们一般会考虑换模型

布里尔分数Brier Score

对数似然函数Log Loss

那什么时候用对数似然，什么时候使用布里尔分数？

可靠性曲线Reliability Curve

预测概率的直方图

校准可靠性曲线

CalibratedClassifierCV：没有接口decision_function，要查看这个类下校准过后的模型生成的概率，必须调用predict_proba接口

base_estimator：需要校准其输出决策功能的分类器，必须存在predict_proba或decision_function接口。如果参数cv=prefit，分类器必须已经拟合数据完毕
cv：整数，确定交叉验证的策略
method：进行概率校准的方法，可输入sigmoid或isotonic

alpha：浮点数，可不填。如果设置为0表示完全没有平滑选项。但是需要注意的是，平滑相当于认为给概率加上一些噪音，因此α设置得越大，多项式朴素贝叶斯的精确性会越低（虽然影响不是非常大），布里尔分数也会逐渐升高
fit_prior：布尔值，可不填。如果设置为False，则不使用先验概率，而使用统一先验概率
class_prior：形似数组的结构，可不填。如果没有给出具体的先验概率则自动根据数据来进行计算

伯努利朴素贝叶斯与多项式朴素贝叶斯非常相似，都常用于处理文本分类数据。但由于伯努利朴素贝叶斯是处理二项分布，所以它更在意的是“存在与否”，而不是“出现多少次”这样的次数或频率
在文本分类的情况下，伯努利朴素贝叶斯可以使用单词出现向量来训练分类器，文档较短的数据集上，伯努利朴素贝叶斯效果会更好，如果时间允许，两种模型建议都试试看