【机器学习系列】使用高斯贝叶斯模型进行数据分类的完整流程

青春之我_XP

已于 2024-06-05 17:32:12 修改

阅读量534

点赞数 7

文章标签：人工智能贝叶斯模型高斯贝叶斯机器学习数据挖掘数据分析大数据

于 2024-05-22 15:19:39 首次发布

本文链接：https://blog.csdn.net/2301_81199775/article/details/139120673

版权

一、导入数据

# 根据商户数据预测其是否续约案例
import pandas
#读取数据到 data 变量中
data = pandas.read_csv('高斯贝叶斯.csv', encoding='ansi')

二、选择特征

features = [ '注册时长', '营收收入', '成本']
x=data[features]
y=data['是否续约']

三、十折交叉验证

#高斯贝叶斯
from sklearn.naive_bayes import GaussianNB
gaussianNB = GaussianNB()

from sklearn.model_selection import cross_val_score
#进行K折交叉验证
cvs = cross_val_score(gaussianNB, x, y, cv=10)
cvs.mean()

分数如下：

四、划分训练集和测试集

from sklearn.model_selection import train_test_split
 
#把数据集分为训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.3)

五、训练高斯贝叶斯模型

gaussianNB = gaussianNB.fit(x_train, y_train)

六、预测测试集

predict=gaussianNB.predict(x_test)

七、查看训练集和测试集上的分数

gaussianNB.score(x_train, y_train)

gaussianNB.score(x_test, y_test)

八、查看混合矩阵

gaussianNB = GaussianNB()
#使用所有数据训练模型
gaussianNB.fit(x, y)
#对所有的数据进行预测
data['预测是否续约'] = gaussianNB.predict(data[features])
from sklearn.metrics import confusion_matrix
#计算混淆矩阵，labels参数，可由 gaussianNB.classes_ 得到
confusion_matrix(
    data['是否续约'], 
    data['预测是否续约'], 
    labels=['不续约', '续约']
)

九、输出评估指标

from sklearn.metrics import classification_report
# 输出评估指标
print(classification_report(y_test, predict))

青春之我_XP

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【机器学习系列】使用高斯贝叶斯模型进行数据分类的完整流程

在这篇博客中，我们将详细介绍如何使用高斯贝叶斯模型进行数据分类。首先，我们会导入数据并选择特征。然后，我们会使用十折交叉验证来评估模型的性能。接下来，我们会将数据集划分为训练集和测试集。在训练集上，我们会训练高斯贝叶斯模型，然后在测试集上进行预测。最后，我们会查看训练集和测试集上的分数，查看混合矩阵，并输出评估指标。这篇博客的目标是帮助读者理解并掌握使用高斯贝叶斯模型进行数据分类的整个流程。
复制链接

扫一扫