正则去除特殊字符
import re
string = '仿妆怎么画?¥%*@'
result = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", string)
chinese = ''.join(result)
print(chinese)
结果如下
仿妆怎么画
正则去除字母、数字及特殊字符,只保留中文汉字
s = '<a class="comment_sticker" href="https://pic2.zhimg.com/v2-fa420fb01533452e9d5f021c52dc6cc5.gif" data-width="" data-height="">[超得意]</a>?$%&*'
str = re.sub('[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~\s]+', "", s)
print(str)
结果如下
超得意
正则表达式的使用
函数 | 说明 |
---|---|
sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
[^**] | 表示不匹配此字符集中的任何一个字符 |
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a | 小写字母unicode范围 |
\uAC00-\uD7AF | 韩文的unicode范围 |
\u3040-\u31FF | 日文的unicode范围 |