【python】解析中英文

最新推荐文章于 2022-06-07 09:20:37 发布

gocpplua

最新推荐文章于 2022-06-07 09:20:37 发布

阅读量1.1k

点赞数 1

分类专栏： Python 文章标签：解析中英文独立开发者er findall codingUTF-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenqiai0/article/details/70991034

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

# -*- coding:UTF-8 -*-
import re
import sys

test = "<span>上联：光换kindle不读书，穷烧耳机不听歌。"
print test
if sys.version_info < (3, 4):  #python 判断 :https://segmentfault.com/q/1010000000127878
        pattern = re.compile('[\x80-\xff]+')
else:
        pattern = re.compile('[\u4e00-\u9fa5]+')
items = re.findall(pattern,test)
for item in items:
        print item

第一句话表明，我们使用的是UTF8格式，所以使用

print test

输出正常。

接下来我们解析中文，因为不同的python版本，使用不同的规则，见山所述。

注意：这是针对只包含中英文字符串的匹配方法，多语言字符串中找出中文用这种方式是不行的。而且他只能输出中文，如果在中文中夹杂着英文就不行了。关于中文夹杂英文，我们见下一篇文章。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。