第1关:利用sklearn构建朴素贝叶斯模型
任务描述
本关任务:编写一个使用贝叶斯分类器完成垃圾邮件分类的程序。
相关知识
为了完成本关任务,你需要掌握:1.朴素贝叶斯模型,2.使用sklearn构建朴素贝叶斯分类器。
朴素贝叶斯模型
贝叶斯方法是一种生成式分类模型,这是一种从概率论上延伸出来的方法。在概率论与统计学中,贝叶斯定理表达了一个事件发生的概率,而确定这一概率的方法是基于与该事件相关的条件先验知识。而利用相应先验知识进行概率推断的过程为贝叶斯推断。
编程要求
根据提示,在右侧编辑器补充代码,完成使用sklearn构建朴素贝叶斯分类器,包括:
数据处理
训练测试集的划分
模型训练
测试数据预测和AUC计算
打印AUC
测试说明
平台会对你编写的代码进行测试:
使用sklearn构建朴素贝叶斯分类器
sklearn做为一个强大机器学习工具,为我们提供了贝叶斯分类器模型的函数接口 sklearn.naive_bayes.MultinomialNB。
不仅如此,我们还可以使用sklearn.model_selection.train_test_split进行训练集和测试集的划分,使用sklearn.metrics.roc_auc_score进行auc指标计算。
下面我们便使用该工具完成上述数据集的训练,来探究sklearn构建朴素贝叶斯分类器,并使用垃圾邮件数据集完成分类。我们的训练过程将包含以下几个方面:
数据处理
训练测试集的划分
模型调用及训练
预测和参数计算
预期输出:
提示: