我们在进行nlp任务时都需要进行数据清洗,我们可以简单的选择string.punctuaion直接去除符号,但是有时候会,文本中不仅仅只有英文符号,因此一般的做法时自定义要去除的符号。方法如下:
#定义符号
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”?,!《》【】()、。:;’‘……¥·"""
#转换字典
dicts={i:'' for i in punctuation}
#maketrans是按照转换字典制作转换表
punc_table=str.maketrans(dicts)
new_train_sent=[]
for sent in train_sent:
sent.replace('<br />','')
#translate 转换
new_train_sent.append(sent.translate(punc_table))