去除标点符号方式多种多样,这里介绍两种自己常用的。
1、python自带punctuation包,可以消除所有中文标点符号。
import re,string from zhon.hanzi import punctuation text = " Hello, world! 这,是:我;第!一个程序\?()()<>《》 " print(re.sub(r"[%s]+" %punctuation, "",text))
Hello world 这是我第一个程序
2、自己定义标点符号集,即可以消除中文标点符号也可以消除英文标点符号。
import re,string text = " Hello, world! 这,是:我;第!一个程序\?()()<>《》 " punc = '~`!#$%^&*()_+-=|\';":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》《{}' print(re.sub(r"[%s]+" %punc, "",text))
Hello world 这是我第一个程序