python中的编码问题(python2和python3)

涉及的编码

我们知道,计算机内部,所有信息最终都是一个二进制值。而编码就是我们日常所能看到和理解的字符与二进制值之间的映射关系。上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。但是,随着计算机的普及,其他国家也需要制定一套支持本国语言的映射关系,这边有了许许多多的编码规范。

  1. ASCII:八位二进制组合出256种状态,每一个状态对应一个符号,一共有256个符号,包括从00000000到11111111,这被称为一个字节(byte)。ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。
  2. Unicode:由于互联网的广泛应用,人们迫切需要一种可以支持全世界语言和符号的编码规范,于是Unicode码便应运而生。现在的Unicode码可以支持100多万个符号。但是Unicode知识一种编码规范,它值规定了从字符到二进制值的映射关系,却没有规定二进制值该怎么存储。例如,有的字符只要一个字节,有的字符需要三个甚至四个字节,如果没有一种好的存储方式,势必会造成存储浪费。但是随着互联网的快速发展,出现了多种Unicode码存储方式。
  3. UTF-8:在Unicode码的众多实现当中,UTF-8是使用最多的一种。UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。单字节符号的二进制值以0开头,双字节符号的二进制值以110开头,三字节符号的二进制值以1110开头,四字节符号的二进制值以11110开头。
    Unicode符号的UTF-8实现
  4. GBK:GBK是非常常见的一种中文编码方式,跟UTF-8不同的是GBK编码对中文编码进行了优化,使用了尽可能少的字节去表示中文字符。

一. Python2的编码问题

  1. Python2字符串类型
    Python2中字符串的类型共有两种:str和unicode。str表示已编码过的字符串,更贴切的称呼应该是字节串,而unicode则是真正的字符串,其每一个字符都用unicode转义符表示。这两个概念很容易混淆,但是有一个最容易分辨的方法就是使用len函数。字符串的长度是我们明眼看到的可以理解的字符的个数,而字节串的长度就是编码后的字节的个数。
    如下实例可以很明显的看出差别:

    代码如下:

     # coding=utf-8
     s1 = '好的'                   #type(s1)为‘str’,len(s1)为6	      'utf-8'字节码 :  '\xe5\xa5\xbd\xe7\x9a\x84'
     s2 = u'好的'.encode('gbk')    #type(s2)为'str', len(s2)为4        'gbk'字节码:     '\xba\xc3\xb5\xc4'
     u1 = u'好的'                  #type(u1)为'unicode',len(u1)为2    'unicode'转义符: u'\u597d\u7684'
    

在这里插入图片描述

二. Python3的编码问题

  1. 跟Python2中默认编码格式为ascii不同的是Python3中的默认编码格式为unicode,并且使用str来表示字符串类型,用bytes来表示字节串。例如:
#python 3
s1 = '好的'                 # type(a)为str      转义码:u'\u597d\u7684'
s2 = '好的'.encode('utf-8') # type(s2)为bytes   字节为:b'\xe5\xa5\xbd\xe7\x9a\x84'

三.编码默认值

  1. sys.getdefaultencoding()
    在python2.7
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值