清洗中文语料过程

最新推荐文章于 2024-04-11 11:01:08 发布

凌疯墨子

最新推荐文章于 2024-04-11 11:01:08 发布

阅读量1w

点赞数 2

分类专栏：自然语言处理文章标签：清洗中文语料 NLP

本文链接：https://blog.csdn.net/ANNILingMo/article/details/88074523

版权

语料需要的清洗的问题

1、标点符号，中文标点混合英文标点符号，全半角等
2、有一些特殊的表情符号存在于句子中
3、还有一些标点符号重复使用
4、至于繁体中文转中文，停用词等之类

1、规则匹配方法

### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号；这种符号一般可以去掉中文文本表达中的表情符号，特殊字符等之类的。

improt re
from string import punctuation
from string import digits
rule = re.compile(u'[^a-zA-Z.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：'+digits+punctuation+'\u4e00-\u9fa5]+')
s= re.sub(rule, '', sentence)
###处理文本重复符号的表达，如替换多个。！.
s = re.sub('[!]+','！', s)
s = re.sub('[.]+','。', s)
s = re.sub('[。]+','。', s)

2、处理整段中文语料上述问题，只提取中文部分

def clean_line(s):
    """
    :par

最低0.47元/天解锁文章

凌疯墨子

关注

2
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
清洗中文语料过程

语料需要的清洗的问题1、标点符号，中文标点混合英文标点符号，全半角等 2、有一些特殊的表情符号存在于句子中 3、还有一些标点符号重复使用 4、至于繁体中文转中文，停用词等之类1、规则匹配方法### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号；这种符号一般可以去掉中文文本表达中的表情符号，特殊字符等之类的。improt refrom string impor...
复制链接

扫一扫