python的中文处理_小结Python的中文处理(转)

最新推荐文章于 2024-05-22 20:26:52 发布

薄荷白开水

最新推荐文章于 2024-05-22 20:26:52 发布

阅读量988

点赞数

文章标签： python的中文处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26795171/article/details/113673407

版权

Python的中文处理

一、使用中文字符

在python源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子：

#!/usr/bin/env python

# -*- coding: cp936 -*-

Python Tutorial中指出，python的源文件可以编码ASCII以外的字符集，最好的做法是在#!行后面用一个特殊的注释行来定义字符集：

# -*- coding: encoding -*-

根据这个声明，Python会尝试将文件中的字符编码转为encoding编码，并且，它尽可能的将指定地编码直接写成Unicode文本。

注意，coding:encoding只是告诉Python文件使用了encoding格式的编码，但是编辑器可能会以自己的方式存储.py文件，因此最后文件保存的时候还需要编码中选指定的ecoding才行。

二、中文字符的存储

>>> str = u"中文"

>>> str

u'\xd6\xd0\xce\xc4'

>>> str = "中文"

>>> str

'\xd6\xd0\xce\xc4'

u"中文"只是声明unicode，实际的编码并没有变。这样子就发生变化了：

>>> str = "中文"

>>> str

'\xd6\xd0\xce\xc4'

>>> str = str.decode("gb2312")

>>> str

u'\u4e2d\u6587'

更进一步：

>>> s = '中文'

>>> s.decode('gb2312')

u'\u4e2d\u6587'

>>> len(s)

4

最低0.47元/天解锁文章

薄荷白开水

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的中文处理_小结Python的中文处理(转)

Python的中文处理一、使用中文字符在python源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子：#!/usr/bin/env python# -*- coding: cp936 -*-Python Tutorial中指出，python的源文件可以编码ASCII以外的字符集，最好的做法是在#!行后面用一个特殊的注释行来定义字符集：# -*...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。