文章目录
前言
本文主要介绍了NLP任务中中文文本处理,包括中文文本处理流程和中文文本预处理案例。
一、中文文本处理流程
1.文本数据准备
数据来源:
- 已有数据(nltk语料库)
- 网上爬取所需的数据(beautifulsoup、scrapy)
2.数据清洗
-
除去数据中非文本部分
-
html标签等
-
emoji的处理(是否删除)
对于情感分析任务,emoji会起到很大的作用,不能去掉emoji;而对于其他任务,则可以去掉emoji。 -
正则表达式re(Regular Expression)
根据需求定义一个Pattern,通过规则匹配文本,来提取文本中的特定部分。
-
-
全角与半角的转化
-
大小写数字和大小写字母的统一
-
标点符号的处理(是否删除)
-
简体和繁体的转化
</