关于Python2.*和Python3.*的编码解码问题

目录

一:前言

二:什么是编码

三:Python2.*编码

四:Python3.*编码

五:编码实现

六:print都做了什么

七:常见编码错误


一:前言

之前写过一个编码的历史,点这里,在不同语言中还是有不同的做法,最近在学习Python,就把Python中的编码问题详细写一遍,巩固一下基础知识

二:什么是编码

人类可以直接理解,易懂的信息称为"明文"(plain text),对于说英语的人,纸张上打印的或者屏幕上显示的英文单词都算是明文,从明文到编码文本转换称为"编码"(encode),从编码文本转换为明文则称为"解码"(decode)

三:Python2.*编码

有两种类型,一种是str,一种是unicode,这两个都是basestring的子类

str是字节串,是Unicode经过编码后的字节组成的序列。对UTF-8编码的str'苑'使用len()函数,结果是3,因为utf8编码的'苑' == '\xe8\x8b\x91'

unicode是一个字符串,unicode才是真正意义上的字符串,len(u'苑')==1

在Python2.*中,str=bytes

特点:自动将bytes数据解码为Unicode字符串

#coding:utf8

print '苑昊' #  苑昊    
print repr('苑昊')#'\xe8\x8b\x91\xe6\x98\x8a'

print (u"hello"+"yuan")

#print (u'苑昊'+'最帅')   #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6
                        # in position 0: ordinal not in range(128)

最后一个出错的原因:数据是ASCII的话,就能解码成功,如果出现非ASCII码的话,就会解码失败,造成UnicodeDecodeError 的错误

Python 2 悄悄掩盖掉了 byte 到 unicode 的转换,让程序在处理 ASCII 的时候更加简单。你复出的代价就是在处理非 ASCII 的时候将会失败。

#coding:utf8
 
u = u'苑'
print repr(u)  # u'\u82d1'
# print str(u)   #UnicodeEncodeError
 
s = u.encode('utf8')
print repr(s) #'\xe8\x8b\x91'
print str(s)  #  苑   
u2 = s.decode('utf8')
print repr(u2) # u'\u82d1'

四:Python3.*编码

Python3.*中也有两种类型,一种是Unicode,一种是byte,普通本文转换为"str类型"后存储的是Unicode,"bytes类型"存储的是byte串,也可以通过 b来制造byte串

在这个版本中严格区分了unicode和byte,不能拼接字符串和字节串,这两者之间不能进行任何操作

特点:不会将bytes数据解码为Unicode字符串,Python2.*中有隐式处理

#print('alvin'+u'yuan')#字节串和unicode连接 py2:alvinyuan
print(b'alvin'+'yuan')#字节串和unicode连接 py3:报错 can't concat bytes to str

转换过程

import json

s='苑昊'
print(json.dumps(s))   #"\u82d1\u660a"
b1=s.encode('utf8')

print(b1,type(b1))     #b'\xe8\x8b\x91\xe6\x98\x8a' <class 'bytes'>

print(b1.decode('utf8'))#苑昊
# print(b1.decode('gbk'))# 鑻戞槉

b2=s.encode('gbk')
print(b2,type(b2))  #'\xd4\xb7\xea\xbb' <class 'bytes'>
print(b2.decode('gbk')) #苑昊

与明文直接对应的就是Unicode数据,打印Unicode数据就会显示对应的明文(包括英文和中文)

五:编码实现

默认编码

解释器解释代码的时候默认的编码方式,在Python2.*中默认的编码方式为ASCII,在Python3.*中默认的编码方式为UTF8,(sys.getdefaultencoding()查看)

所以为了在Python2.*中出现中文时,需要加上如下声明

#-*- coding: UTF-8 -*-
#或者
#coding:utf8

注意:声明的编码必须和文件实际保存时用的编码一致,否则可能出现解析异常。IDE一般会自动处理这种情况,但是文本编辑器(notepad++)要自己选择保存的格式。

文件的保存和执行过程

字符串在内存中是以unicode的数据形式保存的,例如在pycharm中创建一个hello.py文件

print('hello 苑昊')

1.该文件已经被pycharm以默认的文件保存编码方式utf8存到了硬盘(二进制数据)

2.点击运行的时候,其实首先需要打开这个文件,然后将所有的数据转移到内存,字符串此时就以unicode的数据格式存到内存的某块地址上

3.其它内容还是utf8的编码方式,然后解释器就可以按着默认的utf8的编码方式逐行解码成Unicode(全部数据 )

4.解释器把Unicode交给CPU去执行,结果是一堆二进制数据

5.然后操作系统把这些数据编码成utf8或者gbk

六:print都做了什么

在Python 2中,print是一个语句(statement);而在Python 3中变成了函数(function)

print语句

print A==sys.stdout.write(str(A) + '\n')

print A, B, C==sys.stdout.write(' '.join(map(str, [A, B, C])) + '\n')

print函数

import sys

def print(*objects, sep=None, end=None, file=None, flush=False):
    """A Python translation of the C code for builtins.print().


"""
    if sep is None:
        sep = ' '
    if end is None:
        end = '\n'
    if file is None:
        file = sys.stdout
    file.write(sep.join(map(str, objects)) + end)
    if flush:
        file.flush()

print函数比print语句能够指定分隔符(separator)和结束符(end string)

七:常见编码错误

cmd下乱码问题

hello.py

#coding:utf8
print('苑浩')

文件保存的时候编码为utf8

在IDE下2和3都正确,但是在cmd.exe中3正确,2乱码?

          当我们使用Python2 hello.py在cmd中执行时,Python2解释器(默认ASCII码)去按声明的utf8编码文件,而文件又是以utf8保存的,所以没有问题;问题出现在当我们print ('苑浩')时,解释器这边正常执行,不会报错,只是print的内容也会传递给cmd.exe显示,在Python2这个内容是utf8编码的字节数据,而这个软件默认的编码解码方式是GBK,所以cmd.exe用GBK解码的方式去接utf8码自然会乱码。 

         Python3正确的原因是传递给cmd的是Unicode数据,能正常解码

改为print(u'苑浩') cmd下用Python2也不会有问题了

print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']

print问题

Python2.*中

#coding:utf8
print ('苑昊') #苑昊
print (['苑昊','yuan']) #['\xe8\x8b\x91\xe6\x98\x8a', 'yuan']

Python3.*中

print ('苑昊') #苑昊
print (['苑昊','yuan']) #['苑昊', 'yuan']

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值