基于机器学习的文本分类！

Datawhale

于 2020-08-06 19:59:00 发布

阅读量3.8k

点赞数 5

文章标签：算法机器学习人工智能深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/107852921

版权

本文介绍了基于机器学习的文本分类方法，包括One-hot、Bag of Words、N-gram和TF-IDF等文本表示技术，以及在RidgeClassifier上的应用。探讨了正则化参数、max_features和ngram_range对模型的影响，并比较了LogisticRegression、SGDClassifier和SVM的分类效果，结果显示SVM在TF-IDF特征提取下表现最佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：李露，西北工业大学，Datawhale优秀学习者

据不完全统计，网民们平均每人每周收到的垃圾邮件高达10封左右。垃圾邮件浪费网络资源的同时，还消耗了我们大量的时间。大家对此深恶痛绝，于是识别垃圾邮件并对其进行过滤成为各邮件服务商的重要工作之一。

垃圾邮件识别问题本质上是一个文本分类问题，给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个。文本分类一般有两种处理思路：基于机器学习的方法和基于深度学习的方法。

本文主要基于机器学习的方法，介绍了特征提取+分类模型在文本分类中的应用。具体目录如下：

一、数据及背景

https://tianchi.aliyun.com/competition/entrance/531810/information（阿里天池-零基础入门NLP赛事）

二、文本表示方法

在机器学习算法的训练过程中，假设给定个样本，每个样本有个特征，这样就组成了的样本矩阵。在计算机视觉中可以把图片的像素看作特征，每张图片都可以视为

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。