了解一下基本的编码类型
ASCII编码:
计算机最早的编码方式,由美国发明的。设计时采用8bits来表示一个字节(byte).一个byte能表示2^8=255个不同的字符。美国字符只有大小写字母和一些特殊字符总共只有127左右的字符,所以一个字符完全满足当时美国的需求。ascii编码是将字母和特殊字符根据一定的顺序而制作出来的,(相当于密码本)。
规定1个字符占一个字节 ,占8bits.
GB2312
由于最初的ascii编码最大只能255个字符,由于中文字符数远超于。故中国自己发明了gb2312编码方式。规定一个中文字符至少需要2个字节(byte).这样可以表示2^16=65535个中文字符了。类似日本有Shift_JIS,韩文EUC-kr编码。
各国都有自己的标准,就不可避免出现冲突,在多语言混合的文本中,显示出来会有乱码。
1个字符占2个字节,占16bits
Unicode编码:
由于会出现有乱码情况,unicode是把世界上所有的语言都统一到一套编码里来。乱码问题就解决了
最常用的是两个字节表示一个字符。
ascii与unicode区别:
1.ascii 一个字符占1个字节 8bits ,unicode 一个字符占2个字节 16bits
2.ascii 不能表示中文,用unicode 可以来表示中文
3.如果表示一个字母‘A’,ascii 只需要8个bits来表示01000001,unicode 16个bits.
Utf-8编码:
虽然unicode解决了乱码的问题,但是如果一个文件全部都是英文的话,用unicode编码比ascii编码需要多一倍的存储空间,在存储和传输上不划算,本着节约的精神,出现了把unicode编码转化为‘可变长编码’的utf-8
utf-8规范:
- 常用英文字母被编码成1个字节
- 中文通常是3个字节
- 只有很生僻的字符被编码成4-6个字节
计算机系统中,各编码工作的位置:
1.计算机内存中,统一使用unicode编码
2.硬盘和网络传输的时候,转换为utf-8编码
3.用记事本编辑的时候,从文件读取的utf-8编码的字符转为unicode到内存中,编写完成后,保存到磁盘的时候,将内存的unicode编码的字符转为utf-8
在python3中 str类型的数据默认就是unicode编码方式
str(字符串)变为bytes(字节串)
由于python3中字符串的类型是str,在内存中以unicode编码来表示,一个字符对应2个字节。如果在网络传输或存储在磁盘上,就需要将str变为bytes类型
Python对bytes类型的数据用带b前缀的单引号或双引号表示:
>>> 'bC'
'bC'
>>> b'bC'
b'bC'
注意⚠️区分’bC’和b’bC’,前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节
str转化为Bytes类型
>>> 'bC'.encode('ascii')
b'bC'
>>> 'bC'.encode('utf-8')
b'bC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
Bytes转为str类型
如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:
>>> b'bC'.decode('ascii')
'bC'
>>> b'bC'.decode('utf-8')
'bC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'