sklearn.naive_bayes

最新推荐文章于 2023-12-23 22:46:03 发布

kakak_

最新推荐文章于 2023-12-23 22:46:03 发布

阅读量544

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/104939752

版权

Machine Learning 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

如果没有很多数据，贝叶斯模型会比很多复杂的模型获得更好的性能，因为复杂的模型用了太多假设，易产生欠拟合。
在scikit-learn中，常用的3种朴素贝叶斯分类算法：GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯)

这三个类适用的分类场景各不相同，一般来说

如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。
如果样本特征的分布大部分是多元离散值，使用MultinomialNB比较合适。如文本分类单词统计，以出现的次数作为特征值
如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。

高斯朴素贝叶斯：sklearn.naive_bayes.GaussianNB(priors=None)

GaussianNB假设特征的先验概率为正态分布：
$P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp{(}-\frac{(x_j - \mu_k)^2}{2\sigma_k^2}{)}$
其中 $C_k$ 为Y的第k类类别，GaussianNB会根据训练集求出 $μ_k$ 和 $σ^2_k$ 。

priors：默认None，对应Y的各个类别的先验概率 $P(Y=C_k)=m_k/m$ ，其中m为训练集样本总数量， $m_k$ 为输出为第k类别的训练集样本数。若给出以priors 为准。

clf属性：

fit(X, y, sample_weight=None)：训练样本，sample_weight表示各样本权重数组
partial_fit(X, y, classes=None, sample_weight=None)：增量式训练，当训练数据集数据量非常大，不能一次性全部载入内存时，可以将数据集划分若干份，重复调用partial_fit在线学习模型参数，在第一次调用partial_fit函数时，必须制定classes参数，在随后的调用可以忽略。
class_count_属性：获取各类标记对应的训练样本数
theta_属性：获取各个类标记在各个特征上的均值
sigma_属性：获取各个类标记在各个特征上的方差
score(X, y, sample_weight=None)：返回测试样本准确率
predict直接给出测试集的预测类别输出。
predict_proba给出测试集样本在各个类别上预测的概率。
predict_log_proba给出测试集样本在各个类别上预测的概率的一个对数转化。