文本预处理介绍
文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。
对于自然语言的文本数据,处理过程一般包括文本清洗、分词等,其中每个步骤在中英文处理时都有些不同,如中文分词的难度远大于英文,而英文需要转换大小写、词形还原等步骤。
接下来将会分别介绍中英文预处理中的重点环节,结合实际介绍和使用包括jeba,NLTK 等工具包,实现分词和词干提取等步骤,最后展示完成一个(词频统计)实际任务。
一般来说,文本数据预处理的第一步是文本清洗,这个环节非常灵活。需要对任务的最终目标有一定的理解,针对不同的任务选择不同的处理方法,涉及的细节也非常多。
使用正则表达式去除或替换无用信息
对于不同的任务无关信息可能会有不同,比如做情感分析的时候文本中的邮箱信息就是一种无用信息,而在信息抽取时邮箱信息就会变得非常重要。
实战演练:
已知字符串变量my_string
- 请将my_string开头和结尾处的空白删去
- 使用Python的re库的sub()函数,根据正则表达式去除字符串中所有的英文字母,将处理完成的结果存入my_string
- 将匹配模式(正则表达式)存入变量pattern中
import re
my_string