【python】解析中英文

# -*- coding:UTF-8 -*-
import re
import sys

test = "<span>上联:光换kindle不读书,穷烧耳机不听歌。"
print test
if sys.version_info < (3, 4):  #python 判断 :https://segmentfault.com/q/1010000000127878
        pattern = re.compile('[\x80-\xff]+')
else:
        pattern = re.compile('[\u4e00-\u9fa5]+')
items = re.findall(pattern,test)
for item in items:
        print item


第一句话表明,我们使用的是UTF8格式,所以使用

print test

输出正常。


接下来我们解析中文,因为不同的python版本,使用不同的规则,见山所述。


注意:这是针对只包含中英文字符串的匹配方法,多语言字符串中找出中文用这种方式是不行的。而且他只能输出中文,如果在中文中夹杂着英文就不行了。关于中文夹杂英文,我们见下一篇文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值