字符串python language显示第一个字符_python 字符串中的中文识别

最新推荐文章于 2022-03-16 17:25:10 发布

weixin_39638086

最新推荐文章于 2022-03-16 17:25:10 发布

阅读量464

点赞数

文章标签：字符串python language显示第一个字符

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39638086/article/details/111731646

版权

python的中文问题一直是让人不爽的一件事情，而python的一个强大之处恰恰是string的处理，而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。

实验室的complex network项目，目前是数据处理阶段，考虑到python的高效和强大的string功能，我决定使用python对大量的数据进行处理。

下面是一个简单的demo，先贴代码，然后进行说明：

python 代码

# -*- coding: gb18030 -*-

importstring

importre

identify =string.maketrans('', '')

delEStr =string.punctuation + ' ' +string.digits#ASCII 标点符号，空格和数字

delCStr = '《》()&%￥#@！{}【】'

s = '中华人民共和国(北京)'

s = s.translate(identify, delEStr)#去掉ASCII 标点符号和空格

ifre.findall('[\x80-\xff].', s):#s为中文

s = s.translate(identify, delCStr)

prints

else:#s为英文

prints

当然，首先是要import string和re(这里需要正则表达式功能)。

delEStr是一个包含英文标点符号和数字的字符串，就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。

12行的功能就是把s中的英文标点符号都删除。下面一句是关键：

python 代码

re.findall('[\x80-\xff].', s)

这行代码将返回一个list，如果s中包含中文，则返回一个包含每个汉字的非空的list，如果s中不包含中文，则返回一个空list(即[ ])。

第14行要删除这个含中文的字符串中的中文标点符号。

运行这段程序，打印出来的是“中华人民共和国北”，“京”呢？不见了。这就是python让人头疼的地方。错误出在第14行，可能原因是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没找到好的解决办法

这段代码最主要的应用就是translate和findall两个函数，不过在使用translate函数之前要构造一个identify，就像第5行代码那样。

出现了问题是好事，它可以促使自己更加深入的去学习，并且现在处于学习阶段，多遇到问题毕竟是好事，继续学习ing....

weixin_39638086

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串python language显示第一个字符_python 字符串中的中文识别

python的中文问题一直是让人不爽的一件事情，而python的一个强大之处恰恰是string的处理，而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。实验室的complex network项目，目前是数据处理阶段，考虑到python的高效和强大的string功能，我决定使用python对大量的数据进行处理。下面是一个简单的demo，先贴代码，然后进...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。