python3是unicode还是utf-8_Python3中的编码问题(Unicode, UTF-8, GBK, ASCII)

本文章受UNICODE,GBK,UTF-8区别的极大启发,仅为巩固自己的记忆。

1. ASCII是最早的字符集,总共包含127个字符,因为是美国人发明的,127个够他们用了。

2. GBK是ASCII的扩展集,ASCII使用一个字节,即8个二进制位,来表征英文字母和一些符号,一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集,后续在ASCII的基础上进行扩展,将剩余的127个用来表征汉字,但汉字太多,所以不得不在必要时使用2个字符来表示更多的汉字,被称为GB2312字符集,后来仍然不够,又进一步扩展成GBK字符集。所以在此字符集中,英文占一个字节,汉字则占两个字节。

3. UNICODE也是字符集,包含了世界上所有民族的所有文字,因其一律使用两个字符来表示字符。其同时还有备用方案,即使用4个字节来表示字符,总共可容纳上亿的字符。

4. 由于互联网的出现,UNICODE字符集的传输出现了问题,像英文字符本来需要一个字节就可以保存,如果强行用两个甚至三个四个字节来表示,传输的内容将成倍的增加,这是无法接受的,一定要解决。因此也就带来了UTF-8。

5. UTF-8的意思即以每次传输8bits的形式来进行信息传递。如果一个字节能传输完,就传输一个字节,一个字节不够的,再用更多的字节来表示,下图为UNICODE与UTF-8的对应关系。

Unicode符号范围(十六进制)

UTF-8编码方式(二进制)

起始

终止

0000 0000

0000 007F

0xxxxxxx

0000 0080

0000 07FF

110xxxxx

11110xxx

0000 0800

0000 FFFF

1110xxxx

11110xxx

11110xxx

0001 0000

0010 FFFF

11110xxx

11110xxx

11110xxx

11110xxx

因此,这样就解决了4中提到的问题。

以上内容与python的关系:

1. python3的默认编码方式是unicode。

2. encode与decode方法,如何区分?可以理解为unicode是标准的普通话,如果要改成gbk或者utf-8,就需要encode编码(加密),反之则是decode解码(解密)。

3. python3中正常创建的字符的储存方式是unicode,已经是标准的普通话了,无法再解密了,所以如果对一个字符串使用decode方法会提示 AttributeError: 'str' object has no attribute 'decode'。

4. python3中创建字符串,前面加u代表使用unicode字符集,python3的默认字符集已经是unicode,所以已经不需要加u。

5. python3中创建字符串,前面加b代表使用ASCII字符集,只能创建ASCII字符集中存在的字符,中文字符前加b会报错。

6. python3中处理带有'\x'的字符串,.encode('raw_unicode_escape').decode('utf8')。

下图为python2环境,交互式界面。

Python 2.7.10 (default, Feb 7 2017, 00:08:15)

[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwin

Type "help", "copyright", "credits" or "license" for more information.

>>> s='我们'

>>> b=u'我们'

>>> s

'\xe6\x88\x91\xe4\xbb\xac'

>>> b

u'\u6211\u4eec'

>>> print s

我们

>>> print b

我们

>>>

下图为使用python2执行test.py文件。

#! /usr/bin/env python

s = '匆匆'

print(s)

输出结果为:

File "./test.py", line 2

SyntaxError: Non-ASCII character '\xe5' in file ./test.py on line 2, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

添加编码即可:

#! /usr/bin/env python

# -*- encoding: utf-8 -*-

s = '匆匆'

print(s)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值