python2 and 3 编码解惑

python2文件默认编码为ascii

大家都知道,python2和python3在编码上有所不同。比如python2默认的编码(这里主要是指.py文件)是ascii,也就是在.py写的字符会以ascii编码写到文件,然后文件以ascii编码读取加载到内存(此时如果是中文,则加载到内存后就会产生错乱),原因是ascii只支持一百多个符号或英文字符,并不支持中文字符。那么,如果想正常显示中文要怎么办?

python2在内存里的默认内存ascii,是必须在文件头声明coding为GBK或UTF8,声明之后,python2解释器仅以文件所声明的编码去解释代码,并以此编码加载到内存中,加载后,并不会帮你转换成unicode,意味着,你以utf8声明的文件,加载到内存中后还是utf8,这样在window上就会显示乱码,因为window上默认编码是gbk.而gbk和utf8之前并没有映射关系。

 

 

python3文件默认编码为utf8

如,python3的代码执行如下:

  1. 解释器找到代码文件,把代码字符串按文件头定义编码(默认UTF8)加载到内存,会自动转成unicode.
  2. 把代码字符串按照语法规则 进行解释。
  3. 所有的变量字符都会以unicode编码声明。

python3里内存的字符默认以unicode,当然了,并不是所有编程语言在内存里默认编码都是unicode。比如python2就不是。

注意,unicode编码表除了规定了字符对应的编码外,还有一个作用是与各种编码的映射关系,也就是如果内存中的字符是unicode,那不同的操作平台上不同的编码,比如window上的默认的GBK,unicode与GBK有映射关系,能根据平台自动转换为平台上的默认编码,也即显示正常。如下是unicode表(http://www.unicode.org/charts/PDF/U4E00.pdf):

 

因为,针对window系统(默认编码gbk), 字符在内存中的编码格式只有以下两种情况时,cmd控制台才不会乱码:

  1. 内存中字符串以GBK为编码
  2. 内存中字符串以unicode为编码

 

 

其实,python3会自动地把文件编码转换为unicode编码,实际上是调用了两个方法:encode,decode:

(文件编码)UTF-8  --> decode(解码,以文件编码UTF8加载到内存) --> unicode
(字符在内存中的编码)unicode  --> encode(编码,以显示终端或保存到磁盘文件指定编码从内存中读取) --> GBK/UTF-8

 

那么在python2中,以UTF8编码的字符如何能在window 中默认编码为gbk的终端或文件正常显示呢,可以参照上例人为地调用编解码两个方法来实现,其实就是把字符在内存中以unicode编码形式。代码文件:

# -*- coding:UTF-8 -*-
a = '中'
print a  #显示乱码(在windows dos 命令窗口下默认的编码为gbk)

# 人为转换为unicode
aa = a.decode('UTF-8')
print aa  #显示正常  (在windows dos 命令窗口下默认的编码为gbk)

在DOS命令窗口中执行代码文件测试:

D:\codes_py2\luhy\stringutil>python2 myt.py
涓
中

D:\codes_py2\luhy\stringutil>


 

 

总结:

py3:
   文件默认编码为UTF-8
   字符串(这里指加载到内存的数据,可以理解为全是字符串)默认为(自动转换)unicode
py2:
   文件默认编码为ascii
   字符串(这里指加载到内存的数据,可以理解为全是字符串)默认为 ascii (如果文件头声明了GBK,那就是GBK)

 

python3和2字符串的区别:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值