去除标点符号:
re.sub
text = "电影《2012》讲述了2012年12月21日的世界末日,主人公Jack以及世界各国人民挣扎求生的经历,灾难面前,尽现人间百态。"
print('原文:',text,sep= '\n', end = '\n')
print('去除标点符号:',re.sub("\W*",'',text),sep= '\n', end = '\n')
注:“\W” 匹配非字母数字及下划线
"\w"匹配字母数字及下划线
详细内容见“正则匹配”
【python】使用正则匹配判断字符串中含有某些特定子串 及 正则表达式详解_小白想听人话的博客-CSDN博客_python匹配子串
去除标点符号的其他方法:识别文本中的汉字、字母、数字
PS:实现字符串的半角及全角之间的相互转换
def is_chine