文本分类基础

꧁༺北海以北的等待༻꧂

已于 2022-03-04 18:57:40 修改

阅读量4.3k

点赞数 41

分类专栏：机器学习精通文章标签：决策树 python sklearn

于 2021-05-16 15:39:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45414559/article/details/116893330

版权

机器学习精通专栏收录该内容

19 篇文章 43 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍文本分类的基础知识，包括文本处理（字符串操作、分词、正则表达式、去停用词）、文本表示（词袋模型、单词向量化）。重点讲解了Python中的字符串处理、正则表达式库re的使用，以及如何去除停用词。此外，还讨论了词袋模型在文本向量化中的应用，并展示了sklearn中实现文本向量化的方法。

摘要由CSDN通过智能技术生成

文本分类基础

本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》，属于文本分类项目。故这节课我们来学习一些文本分类的基础知识。通常来说，在使用一个算法进行文本分类之前，还需要做一些文本获取、文本处理和特征提取的工作。其中，文本获取的方式有第三方提供的语料库、通过爬虫技术获取等；文本处理主要是分词、去停用词、标准化等，特征提取则是将文本表示成特征向量的形式。

1文本的获取方法不是本课的重点，故不做具体讲解；在文本处理部分，我会从代码层面先讲一些字符串处理的方法，然后讲一下分词、正则表达式和去停用词的代码；特征提取实际上就是文本表示，我会分别从单词层面和句子层面讲解文本的向量化表示。

文本处理

字符串的连接与翻转

>>> s1 = 'abc'
>>

了解本专栏

꧁༺北海以北的等待༻꧂

关注

41
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
60
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 60

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

꧁༺北海以北的等待༻꧂ 欢迎为萌新程序员打赏~谢谢各位

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。