python2编码_python2编码总结

最新推荐文章于 2024-03-21 22:43:03 发布

weixin_39886841

最新推荐文章于 2024-03-21 22:43:03 发布

阅读量111

点赞数

文章标签： python2编码

# -*- coding:utf-8 -*-

str1 = "你好"

print type(str1)

str2 = str1.decode("utf-8")

print type(str2)

str1是str类型，通过decode转为了unicode类型。

下面看encode代码：

# -*- coding:utf-8 -*-

str1 = u"你好"

print type(str1)

str2 = str1.encode("utf-8")

print type(str2)

str1是unicode类型，通过encode转为了str类型。

我们再回头看最开始留下的问题，那段代码为什么会输出乱码呢。因为文件规定的编码格式是utf-8,但是我们print是打印到控制台的，控制台无法显示utf-8编码格式的字符。所以我们要转一下格式。

# -*- coding:utf-8 -*-

str = "你好"

str = str.decode("utf-8")

print str

很多时候编码解码的时候需要加ignore参数才能正确转换，例如.encode('utf-8', 'ignore')或.decode('utf-8', 'ignore')，大家自行斟酌吧。

chardet获取编码格式

有些时候我们是无法知道字符串是什么编码的，比如抓取网页时，有些是utf-8的，有些是gb2312编码的，那我们该怎么获取编码格式并转换为unicode呢。这里就介绍到一个第三方库chardet。使用方式大概如下：

# -*- coding: utf-8 -*-

import chardet

str = "xxxxx"

str_type = chardet.detect(str)

code = str_type['encoding']

code即为str的编码格式。但有些人反映该方法得到的编码格式不准确，速度也慢。本人亲测，速度确实一般，但是目前还没遇到不准确的情况。大家可以斟酌使用，我这里只是提供一个思路，如果谁那里有更好的方式，可以告知小弟，不吝赐教才是。

import sys

reload(sys)

sys.setdefaultencoding('utf8')

之前也遇到过很莫名其妙的编码错误，网上搜到这种方法能解决就糊里糊涂的用上了，也不知是什么原理。今天看到一篇不错的博客，推荐给大家：http://blog.csdn.net/crazyhacking/article/details/39375535。以下内容引用自该篇文章：

Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。编码是 unicode -> str，相反的，解码就是 str -> unicode。剩下的问题就是确定何时需要进行编码或者解码了.关于文件开头的"编码指示"，也就是 # -*- coding: -*- 这个语句。Python 默认脚本文件都是 UTF-8 编码的，当文件中有非 UTF-8 编码范围内的字符的时候就要使用"编码指示"来修正. 关于 sys.defaultencoding，这个在解码没有明确指明解码方式的时候使用。比如我有如下代码：

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文' # 注意这里的 str 是 str 类型的，而不是 unicode

s.encode('gb18030')

这句代码将 s 重新编码为 gb18030 的格式，即进行 unicode -> str 的转换。因为 s 本身就是 str 类型的，因此 Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb18030。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position

0: ordinal not in range(128)

对于这种情况，我们有两种方法来改正错误：

一是明确的指示出 s 的编码方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

s = '中文'

s.decode('utf-8').encode('gb18030')

二是更改 sys.defaultencoding 为文件的编码方式

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入

sys.setdefaultencoding('utf-8')

str = '中文'

str.encode('gb18030')

看完之后,改成这样

print "

addr:", form["addr"].value.decode('gb2312').encode('utf-8')

成功通过.

但是这种方式用着就是别扭，还是尽量自己来控制编码，明确了编码格式，自己写着也踏实。

个人总结

实际编程过程中，最好能在代码内统一编码格式，比如统一为unicode，因为这样就不用考虑编码的问题了。到了显示或输出时再转换为存储类型（utf-8、GBK）。

以上为最近编写python代码的过程中遇到的一些问题及总结，如果有什么不对的地方还请大家及时回复交流，在此谢过。

weixin_39886841

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python2编码_python2编码总结

# -*- coding:utf-8 -*-str1 = "你好"print type(str1)str2 = str1.decode("utf-8")print type(str2)str1是str类型，通过decode转为了unicode类型。下面看encode代码：# -*- coding:utf-8 -*-str1 = u"你好"print type(str1)str2 = str1.e...
复制链接

扫一扫