python几种编码转换

最新推荐文章于 2022-05-08 16:00:26 发布

lonelyisland_syz

最新推荐文章于 2022-05-08 16:00:26 发布

阅读量524

点赞数

分类专栏： python 文章标签： utf-8 unicode ascii

本文链接：https://blog.csdn.net/lonelyisland_syz/article/details/103022610

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 byte = 8 bits ，所以一个字节表示的最大整数为255（二进制11111111 无符号)；两个字节最大65535；四个字节 4294967295

ascii 一个字节，编码了127个字符，即26个基本英文字母，阿拉伯数字，英式标点符号。（大写A 65、小写a 97)

unicode 通常是2字节1字符（越少用的字符，编码长度越长，可能4字节），大部分os和语言支持unicode
eg.

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

你可以猜测，如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001。

但矛盾在于文本中英文比例大，浪费比较多的空间。unicode比ascii多一倍存储空间，在存储和传输上不划算
所以utf-8应运而生

utf-8
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符	ascii	unicode	utf-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

encode()带上对应参数可以进行相应的编码

>>> '你好'.encode('raw_unicode-escape')
b'\\u4f60\\u597d'
>>> '你好'.encode('utf-8')
b'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> '你好'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
>>>

decode()，格式应该为:someByteType.decode()

>>> u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8')
b'\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd'
>>> print(b'\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd')
b'\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd'
>>> u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape')
b'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape').decode('utf8')
'你好'

>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'
>>>

lonelyisland_syz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python几种编码转换

1 byte = 8 bits ，所以一个字节表示的最大整数为255（二进制11111111 无符号)；两个字节最大65535；四个字节 4294967295ascii 一个字节，编码了127个字符，即26个基本英文字母，阿拉伯数字，英式标点符号。（大写A 65、小写a 97)unicode 通常是2字节1字符（越少用的字符，编码长度越长，可能4字节），大部分os和语言支持unicode...
复制链接

扫一扫