to_glob_str = "1a A烫烫♪(^∇O(∩_∩)O^*){【《/*、\.." # 要过滤的字符串
re_exp = u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a\’!\"#$%&\'()*+,-./:;<=>?@,。?、…【】《》?“”‘’!["u"\\]^_`{|}~\s])" # 过滤正则表达式,只保留中文、英文、数字及一些标点符号
re_exp_2 = u"([.*\[d+].*])" # 过滤形如[1]等的引用
result_str = re.sub(re_exp, "", to_glob_str)
附:各个符号对应的unicode编码
表达式 | 说明 |
\u4e00-\u9fa5 | 汉字 |
\u0030-\u0039 | 数字 |
\u0041-\u005a | 大写字母 |
\u0061-\u007a | 小写字母 |
\uAC00-\uD7AF | 韩文 |
\u3040-\u31FF | 日文 |