【机器学习】贝叶斯分类器代码实现（python+sklearn）

海洋之心

已于 2022-11-27 10:21:32 修改

阅读量1w

点赞数 10

分类专栏：机器学习知识积累文章标签：深度学习人工智能 python 大数据

于 2021-07-14 23:40:15 首次发布

本文链接：https://blog.csdn.net/m0_47256162/article/details/118740148

版权

机器学习知识积累专栏收录该内容

79 篇文章

订阅专栏

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目🐳
🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码🐙
🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码🐶
🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码🦜
🐌Java经典编程100例🐌
🦋Python经典编程100例🦋
🦄蓝桥杯历届真题题目+解析+代码+答案🦄
🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全🐯

简介：下面是我在学习时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。

关键词：Python、机器学习、贝叶斯分类器

一、贝叶斯分类器

在sklearn-learn官方封装好的模块中，已经有了BernoulliNB（伯努利分类器）、GaussianNB（高斯分类器）、MultinomialNB（多项式分类器）、ComplementNB（互补贝叶斯分类器）、CategoricalNB。

这些分类器的大体原理是一样的，都是根据先验概率和条件概率去求后验概率，不同之处就是不同的分类器对我们数据的假设分布不一样，比如高斯分类器就是假设每个类别下的每一特征分量符合的是正态分布。

注意目前几个分类器只可以用于分类使用，不能够用于回归建模。

1.高斯分类器代码实现

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

# 1.加载数据
X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2021)

# 2.定义分类器
clf = GaussianNB()

# 3.模型训练
clf.fit(X_train, y_train)

# print(clf.class_count_)
# print(clf.classes_)
# print(clf.sigma_) 返回每个类别下每个特征分量的均值
# print(clf.theta_) 返回每个类别下每个特征分量的方差
print(X.shape)
print(clf.theta_.shape)

# 4.模型结果
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

# 如果我们的数据集较为大时，一次性不能够全部读入内存，此时就可以用partial_fit方法进行分批进行训练
clf.partial_fit(X_train, y_train)

print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

输出结果：

(1797, 64)
(10, 64)
训练集分数： 0.847255369928401
测试集分数： 0.8444444444444444
训练集分数： 0.847255369928401
测试集分数： 0.8444444444444444

高斯分类器非常简单，因为在构造模型时不需要任何的参数。

上面可能看到partial_fit这个方法，这个方法也是用于训练模型的，它的使用场景就是当我们的训练数据集特别大，cpu不能够一次性的容纳下，此时就需要使用该方法进行分块学习，其实它和深度学习中的批次差不多。

其中模型中有两个重要的参数分别为sigma_，theta_，他们两个分别代表的是每个类别下每个特征分量的均值和方差。

2.多项式分类器

from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

# 1.加载数据
X, y = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2021)

# 2.定义分类器
clf = MultinomialNB()

# 3.模型训练
clf.fit(X_train, y_train)

# 4.模型结果
print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

# 如果我们的数据集较为大时，一次性不能够全部读入内存，此时就可以用partial_fit方法进行分批进行训练
clf.partial_fit(X_train, y_train)

print("训练集分数：", clf.score(X_train, y_train))
print("测试集分数：", clf.score(X_test, y_test))

输出结果：

训练集分数： 0.9085123309466985
测试集分数： 0.9092592592592592
训练集分数： 0.9085123309466985
测试集分数： 0.9092592592592592

写在最后

大家好，我是阿光，觉得文章还不错的话，记得“一键三连”哦！！！

以上是我在读这本书的时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得，如有错误，欢迎大家指正。