中文文本预处理

最新推荐文章于 2023-05-31 01:43:41 发布

SK-Berry

最新推荐文章于 2023-05-31 01:43:41 发布

阅读量4.8k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/sk_berry/article/details/104984599

版权

本文总结了中文文本预处理的五个步骤：数据准备、去除无用符号、保留汉字、表情符号去除和繁简体转换。介绍了如何使用Python进行文本处理，包括替换、正则表达式和转换工具的使用。

摘要由CSDN通过智能技术生成

在进行文本分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就中文文本的预处理做一个总结。

文章目录

1、文本数据准备

使用已经有的语料库，按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程，所以先使用句子，最后再整合。

2、去除指定无用的符号

我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号，如果保留这些符号，在分词的时候这些符号也会被分出来，就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号：
例1：去除空格

contents = '   大家好， 欢迎一起来学习文本的空格   去除   ！'
print('处理前文本：'+contents)
def process(our_data):     #定义函数
    content = our_data.replace(' ','')   # 去掉文本中的空格
    print('处理后文本：'+content)
process(contents)

运行结果：

处理前文本：   大家好， 欢迎一起来学习文本的空格   去除   ！
处理后文本：大家好，欢迎一起来学习文本的空格去除！

例2：去除空格的同时把省略号转换为句号

contents = '   大家好， 这里还有  很多的知识...一起拉学习吧 ！'
print(

最低0.47元/天解锁文章

SK-Berry

关注

3
点赞
踩
47

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫