语料需要的清洗的问题
- 1、标点符号,中文标点混合英文标点符号,全半角等
- 2、有一些特殊的表情符号存在于句子中
- 3、还有一些标点符号重复使用
- 4、至于繁体中文转中文,停用词等之类
1、规则匹配方法
### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号;这种符号一般可以去掉中文文本表达中的表情符号,特殊字符等之类的。
improt re
from string import punctuation
from string import digits
rule = re.compile(u'[^a-zA-Z.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|\s::'+digits+punctuation+'\u4e00-\u9fa5]+')
s= re.sub(rule, '', sentence)
###处理文本重复符号的表达,如替换多个。!.
s = re.sub('[!]+','!', s)
s = re.sub('[.]+','。', s)
s = re.sub('[。]+','。', s)
2、处理整段中文语料上述问题,只提取中文部分
def clean_line(s):
"""
:par