python去除常见标点符合以及空格
在处理中文语句进行分词前,标点符号比较占位置,可以使用下面方法清空掉。
import re
def drop_punctuation(text):
punc = '~`!#$%^&*()_+-=|\';"":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》{《}】【\n\]\[ '
new_text=re.sub(r"[%s]+" %punc, "",text)
return new_text
测试:
t1='1 距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.'
qt = drop_punctuation(t1)
qt
结果:
'距离川沙公路较近但是公交指示不对如果是蔡陆线的话会非常麻烦建议用别的路线房间较为简单'