# -*- coding:UTF-8 -*-
import re
import sys
test = "<span>上联:光换kindle不读书,穷烧耳机不听歌。"
print test
if sys.version_info < (3, 4): #python 判断 :https://segmentfault.com/q/1010000000127878
pattern = re.compile('[\x80-\xff]+')
else:
pattern = re.compile('[\u4e00-\u9fa5]+')
items = re.findall(pattern,test)
for item in items:
print item
第一句话表明,我们使用的是UTF8格式,所以使用
print test
输出正常。
接下来我们解析中文,因为不同的python版本,使用不同的规则,见山所述。
注意:这是针对只包含中英文字符串的匹配方法,多语言字符串中找出中文用这种方式是不行的。而且他只能输出中文,如果在中文中夹杂着英文就不行了。关于中文夹杂英文,我们见下一篇文章。