在平常的编码过程中,经常需要用到一些常见的正则表达式,但网上流传的很多都并不太准确,现把他们整理出来如下,并附上实践代码。
一、匹配中文以及中文全角标点符号
正则表达式:u"([\u4e00-\u9fa5,\uff00-\uffef,\u3000-\u303f]+)"
实践代码:
#!/usr/bin/python
# -*- coding: utf8 -*-
import re
source = "12345f粉红色的讲课费第三款dsjdd54d放得开麻烦fjdsf防静电"
source_unicode = source.decode('utf8') #将source解码成unicode,source原来的编码方式为utf8
cjk_char=u"([\u4e00-\u9fa5,\uff00-\uffef,\u3000-\u303f]+)"
pattern = re.compile(cjk_char)
results = pattern.findall(source_unicode)
print results
for result in results:
print result
二、匹配Email
正则表达式:^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$
该表达式只适用于表单验证,不适用于查找(因为限制条件太严格),故此处就不给出例子了。
以后继续补充