16、编码问题——初次见面
(1)、编码的发展
<1>ASCII码:只能存英文和拉丁字符,一个字符占一个字节,8位
<2>GB2312:只能有6700多个中文
<3>GBK:是GB2312的扩展,除兼容GB2321外,它还能显示繁体中文,还有日文的假名
<4>Unicode:万国码,是国际组织制定的可以容纳世界上所有文字和字符的编码方案。UTF-32(一个字符占4个字节)、UTF-16(一个字符占2个或2个以上字节)、UTF-8(是最流行的一种对Unicode进行传播和存储的编码方式。一个英文用ASCII码来存占一个字节,一个中文占3个字节)
(2)在开发Python程序中,会涉及到三个方面的编码:
<1>Python程序文件的编码
<2>Python程序运行时环境(IDE)的编码
<3>Python程序读取外部文件、网页的编码
(3)encode与decode函数
<1>decode()函数:将其他编码方式的字符转换成Unicode编码。
s = '特斯拉'
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式
<2>encode()函数:将Unicode编码方式的字符转换成其他编码方式。
s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式,转换成gbk的编码方式
<3>decode 与 encode的使用关系如下图
(4)python2.X中编解码问题
<1>Python2.X中,系统默认的文件编码方式是ASCII码。在写Python2.X程序的时候,习惯在程序的第一行加上:
#coding=utf-8
或者
#-*- conding:utf-8 -*-
<2>encode与decode在Python2.X中的示例
#-*-coding:utf-8-*-
#___Author: Damon
#___Date: 2017/8/12
# 显示的编码为GBK
s = '特斯拉'
print s#打印结果:鐗规柉鎷 原因:文件的编码是utf-8的,而cmd中显示字符的文件编码是gbk的,所以,出现乱码,无法识别,
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式
print s_to_unicode#打印结果:特斯拉
s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式,转换成gbk的编码方式
print s_to_unicode_to_gbk#打印结果:特斯拉
示例分析及说明:
1)、程序中,代码的编码方式已改为utf-8
2)、程序的的结果显示是在win10 的cmd命令窗口中,窗口显示默认GBK编码方式
3)、若想在cmd命令窗口中,显示utf-8编码方式的文件,可在cmd命令窗口中,输入如下指令:chcp 65001
<3>改变python2.X中默认的编码方式
import sys
print(sys.getdefaultencoding())#打印Python2 中系统默认的编码方式:ASCII
reload(sys)
sys.setdefaultencoding('utf-8')#将python2系统中默认的编码方式(ASCII)改成utf-8
print (sys.getdefaultencoding())#打印更改后的Python2系统中的编码方式
(5)、Python3.X中的编解码问题
<1>Python3对文本(str)和二进制数据(bytes)有了更加清晰的区分。
Python3.X中,文本默认的编码方式是Unicode,由str类型表示,二进制数据则由bytes类型表示。
<2>encode与decode在Python3.X中的示例
#___Author: Damon
#___Date: 2017/8/12
s = 'i am 特斯拉'
print(s)#i am 特斯拉
s_to_utf_8 = s.encode('utf-8')
print(s_to_utf_8 )#b'i am \xe7\x89\xb9\xe6\x96\xaf\xe6\x8b\x89'
s_to_gbk = s.encode('gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#bytes()函数同encode()函数一样,也是把str类型编码成bytes类型
s_to_gbk = bytes(s,'gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#解码过程,把bytes数据解码成str类型
s_to_gbk_to_gbk = b'i am \xcc\xd8\xcb\xb9\xc0\xad'.decode('gbk')
print(s_to_gbk_to_gbk)#i am 特斯拉
编码过程是从str到bytes,解码过程是从bytes到str。