本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》,属于文本分类项目。故这节课我们来学习一些文本分类
的基础知识。通常来说,在使用一个算法进行文本分类之前,还需要做一些文本获取
、文本处理
和特征提取
的工作。其中,文本获取的方式有第三方提供的语料库、通过爬虫技术获取等;文本处理主要是分词、去停用词、标准化等,特征提取则是将文本表示成特征向量的形式。
1文本的获取方法不是本课的重点,故不做具体讲解;在文本处理部分,我会从代码层面先讲一些字符串处理的方法,然后讲一下分词、正则表达式和去停用词的代码;特征提取实际上就是文本表示,我会分别从单词层面和句子层面讲解文本的向量化表示。
文本处理
字符串的连接与翻转
>>> s1 = 'abc'
>>