每天五分钟机器学习：基于逻辑回归算法完成垃圾邮件分类（实战）

最新推荐文章于 2024-04-26 12:11:34 发布

幻风_huanfeng

最新推荐文章于 2024-04-26 12:11:34 发布

阅读量918

点赞数 1

分类专栏：每天五分钟玩转机器学习算法文章标签：机器学习回归分类人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huanfeng_AI/article/details/127311596

版权

每天五分钟玩转机器学习算法专栏收录该内容

157 篇文章 26 订阅 ¥29.90 ¥99.00

订阅专栏

本文重点

前面我们学习了逻辑回归算法，本文我们基于sklearn完成逻辑回归算法的构造，因为逻辑回归算法可以解决分类问题，所以本文我们使用python代码完成垃圾邮件的分类问题，我们下面来看一下是如何操作的

数据准备

现在有两个文件，一个文件是训练数据（带有标签的），另外一个是测试集数据（没有标签）
在这里插入图片描述

我们第一步的任务是将train训练数据分为两个文件，一个文件只存邮件的文本，另外一个文件存储邮件多对应的标签，那么执行下面的任务就可以完成，这个代码就遍历每一个样本，然后将文本放到email.txt中，然后将标签放到labels.txt中在这里插入图片描述

使用随机森林算法需要我们手动构建特征，这里我们使用tf-idf的方式来看一下，我们如何构建样本的特征。这里我们使用tf-idf工具，只需要把数据放入进去就可以自动构建出tf-idf数据了
在这里插入图片描述

如代码所示，这里我们有两个tf-idf的方法，不同点是一个为了训练集构建，一个为了测试集构建，我们知道训练集和测试集的样本是不一样的，为了让二者统一，我们使用

了解本专栏

幻风_huanfeng

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
每天五分钟机器学习：基于逻辑回归算法完成垃圾邮件分类（实战）

如代码所示，这里我们有两个tf-idf的方法，不同点是一个为了训练集构建，一个为了测试集构建，我们知道训练集和测试集的样本是不一样的，为了让二者统一，我们使用了两个方法，其中在构建测试集的tf-idf的时候，我们需要先fit_transform，也就是先拟合训练数据，然后再对测试数据构造tf-idf，当我们构建好样本特征之后，我们下面需要读取样本的标签。使用随机森林算法需要我们手动构建特征，这里我们使用tf-idf的方式来看一下，我们如何构建样本的特征。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

幻风_huanfeng 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。