去除中文
#去除中文
import re
p1='帮会建了徽信群 没在群里的加下徽信:[30109552300],晚上群里有活动通知大家,(抢资源),争地盘,谢谢配合。i love you '
linee=re.sub('[\u4e00-\u9fa5]', '', p1)
print(linee)
:[30109552300],,(),,。i love you
去除标点
simple_punctuation = '[’!"#$%&\'()*+,-/:;<=>?@[\\]^_`{|}~,。,]'
line = re.sub(simple_punctuation, '', linee)
去除数字
re.sub("[0-9]", " ", line)
' i love you '