【机器学习】实验3布置：贝叶斯垃圾邮件识别

最新推荐文章于 2024-02-01 15:00:56 发布

Can__er

最新推荐文章于 2024-02-01 15:00:56 发布

阅读量594

点赞数

分类专栏： machine learning 文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/can__er/article/details/126076105

版权

machine learning 专栏收录该内容

27 篇文章 18 订阅

订阅专栏

这篇博客分享了使用学堂在线《机器学习》课程中的实验，基于Trec06中文垃圾邮件数据集，运用朴素贝叶斯算法进行邮件分类。作者提供了代码、报告及部分PPT，强调测试集准确率、精准率和召回率需超过0.9。此外，还探讨了特征数量对模型效果的影响，并鼓励读者尝试邮件头信息的利用、自行实现算法及比较不同概率计算方法。

摘要由CSDN通过智能技术生成

ML_class

学堂在线《机器学习》实验课代码+报告（其中实验1和实验6有配套PPT），授课老师为张敏老师。课程链接：https://www.xuetangx.com/training/ML080910036802/1048372?channel=i.area.page_course_ad。

持续更新中。
所有代码为作者所写，并非最后的“标准答案”，只有课程设计被扣了1分，其余皆是满分。仓库链接：https://github.com/W-caner/ML_class。此外，欢迎关注我的CSDN：https://blog.csdn.net/Can__er?type=blog。
部分数据集由于过大无法上传，我会在博客中给出下载链接。如果对代码有疑问，有更好的思路等，也非常欢迎在评论区与我交流~

EXP3 贝叶斯垃圾邮件识别

本次作业以垃圾邮件分类任务为基础，要求提取文本特征并使用朴素贝叶斯算法进行垃圾邮件识别（调用已有工具包或自行实现）。

任务介绍

电子邮件是互联网的一项重要服务，在大家的学习、工作和生活中会广泛使用。但是大家的邮箱常常被各种各样的垃圾邮件填充了。有统计显示，每天互联网上产生的垃圾邮件有几百亿近千亿的量级。因此，对电子邮件服务提供商来说，垃圾邮件过滤是一项重要功能。而朴素贝叶斯算法在垃圾邮件识别任务上一直表现非常好，至今仍然有很多系统在使用朴素贝叶斯算法作为基本的垃圾邮件识别算法。

本次实验数据集来自Trec06的中文垃圾邮件数据集，目录解压后包含三个文件夹，其中data目录下是所有的邮件（未分词），已分词好的邮件在data_cut目录下。邮件分为邮件头部分和正文部分，两部分之间一般有空行隔开。标签数据在label文件夹下，文件中每行是标签和对应的邮件路径。‘spam’表示垃圾邮件，‘ham’表示正常邮件。

基本要求：

提取正文部分的文本特征；
划分训练集和测试集（可以借助工具包。一般笔记本就足够运行所有数据，认为实现困难或算力不够的同学可以采样一部分数据进行实验。）；
使用朴素贝叶斯算法完成垃圾邮件的分类与预测，要求测试集准确率Accuracy、精准率Precision、召回率Recall均高于0.9（本次实验可以使用已有的一些工具包完成如sklearn）；
对比特征数目（词表大小）对模型效果的影响；
提交代码和实验报告。