python encode

最新推荐文章于 2024-06-16 23:01:57 发布

骑着鲸鱼看海底

最新推荐文章于 2024-06-16 23:01:57 发布

阅读量447

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u013469376/article/details/103181923

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

了解一下基本的编码类型

ASCII编码：
计算机最早的编码方式，由美国发明的。设计时采用8bits来表示一个字节（byte）.一个byte能表示2^8=255个不同的字符。美国字符只有大小写字母和一些特殊字符总共只有127左右的字符，所以一个字符完全满足当时美国的需求。ascii编码是将字母和特殊字符根据一定的顺序而制作出来的，（相当于密码本）。

规定1个字符占一个字节，占8bits.

GB2312
由于最初的ascii编码最大只能255个字符，由于中文字符数远超于。故中国自己发明了gb2312编码方式。规定一个中文字符至少需要2个字节（byte）.这样可以表示2^16=65535个中文字符了。类似日本有Shift_JIS,韩文EUC-kr编码。
各国都有自己的标准，就不可避免出现冲突，在多语言混合的文本中，显示出来会有乱码。

1个字符占2个字节，占16bits

Unicode编码：
由于会出现有乱码情况，unicode是把世界上所有的语言都统一到一套编码里来。乱码问题就解决了

最常用的是两个字节表示一个字符。

ascii与unicode区别：
1.ascii 一个字符占1个字节 8bits ,unicode 一个字符占2个字节 16bits
2.ascii 不能表示中文，用unicode 可以来表示中文
3.如果表示一个字母‘A’,ascii 只需要8个bits来表示01000001，unicode 16个bits.

Utf-8编码：
虽然unicode解决了乱码的问题，但是如果一个文件全部都是英文的话，用unicode编码比ascii编码需要多一倍的存储空间，在存储和传输上不划算，本着节约的精神，出现了把unicode编码转化为‘可变长编码’的utf-8
utf-8规范：

常用英文字母被编码成1个字节
中文通常是3个字节
只有很生僻的字符被编码成4-6个字节

计算机系统中，各编码工作的位置：
1.计算机内存中，统一使用unicode编码
2.硬盘和网络传输的时候，转换为utf-8编码
3.用记事本编辑的时候，从文件读取的utf-8编码的字符转为unicode到内存中，编写完成后，保存到磁盘的时候，将内存的unicode编码的字符转为utf-8

在python3中 str类型的数据默认就是unicode编码方式

str（字符串）变为bytes(字节串)
由于python3中字符串的类型是str,在内存中以unicode编码来表示，一个字符对应2个字节。如果在网络传输或存储在磁盘上，就需要将str变为bytes类型

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

>>> 'bC'
'bC'
>>> b'bC'
b'bC'

注意⚠️区分’bC’和b’bC’，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节

str转化为Bytes类型

>>> 'bC'.encode('ascii')
b'bC'
>>> 'bC'.encode('utf-8')
b'bC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'

Bytes转为str类型
如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

>>> b'bC'.decode('ascii')
'bC'
>>> b'bC'.decode('utf-8')
'bC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

骑着鲸鱼看海底

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python encode

了解一下基本的编码类型ASCII编码：计算机最早的编码方式，由美国发明的。设计时采用8bits来表示一个字节（byte）.一个byte能表示2^8=255个不同的字符。美国字符只有大小写字母和一些特殊字符总共只有127左右的字符，所以一个字符完全满足当时美国的需求。ascii编码是将字母和特殊字符根据一定的顺序而制作出来的，（相当于密码本）。规定1个字符占一个字节，占8bits.GB23...
复制链接

扫一扫

专栏目录