在进行文本分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就中文文本的预处理做一个总结。
1、文本数据准备
使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。
2、去除指定无用的符号
我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号,如果保留这些符号,在分词的时候这些符号也会被分出来,就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号:
例1:去除空格
contents = ' 大家好, 欢迎一起来学习文本的空格 去除 !'
print('处理前文本:'+contents)
def process(our_data): #定义函数
content = our_data.replace(' ','') # 去掉文本中的空格
print('处理后文本:'+content)
process(contents)
运行结果:
处理前文本: 大家好, 欢迎一起来学习文本的空格 去除 !
处理后文本:大家好,欢迎一起来学习文本的空格去除!
例2:去除空格的同时把省略号转换为句号
contents = ' 大家好, 这里还有 很多的知识...一起拉学习吧 !'
print(