python中的编码问题

最新推荐文章于 2024-03-14 23:11:52 发布

guwen1991

最新推荐文章于 2024-03-14 23:11:52 发布

阅读量649

点赞数

分类专栏： python

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原文链接：http://blog.csdn.net/gukesdo/article/details/7336936

1.在进行编码转换的时候我们必须清楚，我们读进来的字符串，或者说我们要进行解码的字符串本身是何种编码方式，然后就可以用decode对此字符串进行解码，解码成unicode字符串；然后对于解码之后的unicode字符串利用我们想要的编码格式进行编码。

2.python 中有（byte string）和（unicode string）两种不同的类型。因此，python 里面的编码和解码也就是 unicode 和 byte 这两种形式的相互转化：编码是 unicode -> byte，解码就是 byte -> Unicode

3.str和unicode都是basestring的子类。严格意义上说，str其实是字节串，它是unicode经过编码后的字节组成的序列。unicode才是真正意义上的字符串，对字节串str使用正确的字符编码进行解码后获得。

4.对unicode进行解码是错误的，对str进行编码也是错误的

5.源代码文件中，如果有用到非ASCII字符，则需要在文件头部进行字符编码的声明。实际上Python只检查#、coding和编码字符串，其他的字符都是为了美观加上的。另外，Python中可用的字符编码有很多，并且还有许多别名，还不区分大小写，比如UTF-8可以写成u8。参见http://docs.python.org/library/codecs.html#standard-encodings。

6.我读取到的字符串是gbk的，所以我很自然的用s.decode('gbk').encode('utf-8')来转换。可是今天转换时遇到如下异常: UnicodeDecodeError: 'gbk' codec can't decode bytes in position 7-8: illegal multibyte sequence

（1）这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。这样的问题很让人头疼，因为只要字符串中出现了一个非法字符，整个字符串——有时候，就是整篇文章——就都无法转码。

（2）解决办法： s.decode('gbk', ‘ignore').encode('utf-8′) 。因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；如果设置为ignore，则会忽略非法字符；如果设置为replace，则会用?取代非法字符；如果设置为xmlcharrefreplace，则使用XML的字符引用。

7.注意：

（1）对有中文的文件，都保持为utf-8格式，在文件的开头处都指明编码coding:utf-8，文件中的字符串都统一成Unicode形式。

（2）根据需要使用encode和decode函数进行转换

（3）对文件输入或者其他方式输入的数据，也要使用decode函数相应转换成Unicode，这样会减少编码带来的麻烦。

8.备注：

（1）获得系统默认编码：

import sys
print sys.getdefaultencoding()

这段程序在英文WindowsXP上输出为：ascii，在linux上面也是ascii编码

（2）判断是否为unicode字符串

isinstance(s, unicode)

guwen1991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录