unicode 和utf-8,GBK编码

最新推荐文章于 2023-03-22 14:15:11 发布

weixin_34034670

最新推荐文章于 2023-03-22 14:15:11 发布

阅读量629

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/ZFBG/p/9233232.html

版权

说到编码，得先从ASCII编码讲起。ASCII编码是由美国人发明，美国的字符不超过255个，所以ASCII编码使用了8bit 即一个字节来存储字符。由于汉字的数量远超255个，所以中国自己发明了一个GB2312编码来表示汉字，一般的汉字使用2个字节，对于一些生僻的汉字则使用更多的字节来表示，当然，GB2313编码是可以兼容ASCII码的。

然后，日本，韩国等等国家也自己发明了一套编码方法，这时候又出现了一个新的问题。如果一篇文章里面，即有中文，又有日文的话，无论使用中文的编码方法还是使用日文的编码方法都会出现乱码。随后，unicode编码便应运而生。unicode编码对文字的编码进行了统一，当然，unicode只是一种编码规范，它有多个版本，常用的unicode编码使用了16位来存储字符，16位的存储空间足以容纳世界上所有书面字符（对于汉字来说，一共有6万多个，只能包含其中的一些常用汉字，所以unicode编码对于汉字的兼容性并不是特别好）。unicode编码兼容了ASCII码，ASCII码转unicode编码时，保持后8位不变，前8位只需要用0去补全即可。

使用了unicode编码后，又有新的问题出现。因为unicode编码是用两个字节来存储字符，如果一篇文章中，大部分都是英文，使用unicode编码就会造成空间的浪费，对英文部分使用ASCII码只需要一个字节就可以了。这时候，utf-8解决了这个问题。utf-8是一种可变长的字符编码，当存储英文时只使用一个字节，节省了一半的空间，而存储中文字符时，长度还是不变。utf-8虽然压缩了存储空间，但是如果在内存中存储，使用utf-8却由于它的长度不固定，带来了很大的不便，使得在内存处理字符变得复杂。应对这个问题的解决策略是：在内存中存储字符时还是使用unicode编码，因为unicode编码的长度固定，处理起来很方便。而在文件的存储中，则使用utf-8编码，可以压缩内存，节省空间。这里一般有个自动转换的机制，即从文件中读取utf-8编码到内存时，会自动转换为unicode编码，而从内存中将字符保存到文件时，则自动转换为utf-8编码。可以理解为下图:

　　我们平时看到的文件都是已经存在持续化存储设备上的，所以由上面的知识我们可以理解那么他一定是存储为UTF-8或者是DBK格式，大部分是UTF-8，可自行选择。那么这个文件如果需要读入内存，就需要转换为unicode格式

同样的道理，第二张图在服务器端采用的是unicode编码，但是很耗费资源所以数据在网络上传输的时候，需要先转换为utf-8编码格式。

简单的理解为：unicode是所有编码的一个规范，而utf-8是规范的具体实现（落地存储）

理解了utf-8 unicode 基本概念之后。我们继续来理解python中的编码，在学python爬虫的时候，编码一直是个大难题！！

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

>>> print('包含中文的str')
包含中文的str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

>>> ord('A')
65
>>> ord('中') 20013 >>> chr(66) 'B' >>> chr(25991) '文'

如果知道字符的整数编码，还可以用十六进制这么写str：

>>> '\u4e2d\u6587'
'中文'

两种写法完全是等价的。

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

x = b'ABC'

要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

在bytes中，无法显示为ASCII字符的字节，用\x##显示。

反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC' >>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') '中文'

如果bytes中包含无法解码的字节，decode()方法会报错：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
  ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分无效的字节，可以传入errors='ignore'忽略错误的字节：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中'

要计算str包含多少个字符，可以用len()函数：

>>> len('ABC')
3
>>> len('中文') 2

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数：

>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87') 6 >>> len('中文'.encode('utf-8')) 6

可见，1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码：

转载于:https://www.cnblogs.com/ZFBG/p/9233232.html

weixin_34034670

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫