1、编码
人类语言通过编码表转化为计算机的0和1的语言,就是编码。(encode)
从机器语言到人类语言,是解码(decode)。
编码表:人类语言和计算机语言一一对应的表。
第0,数据在计算机工作区——内存当中处理时,使用的格式是Unicode,统一标准。
第1,数据在硬盘上存储,或者是在网络上传输时,用的是UTF-8,因为省空间。
第2,一些中文的文件,中文的网站,使用GBK,和GB2312。
第3,UTF-8和Unicode可按照一个规则互相转换
编码和解码,格式:
例子
print('吴枫'.encode('utf-8'))
print('吴枫'.encode('gbk'))
print('ABC'.encode('ASCII'))
print(b'\xce\xe2\xb7\xe3'.decode('gbk'))
运行结果
b’\xe5\x90\xb4\xe6\x9e\xab’
b’\xce\xe2\xb7\xe3’
b’ABC’
吴枫
最前面的b,意思是bytes(字节)类型的数据
所谓的编码,其实本质就是把字符串类型的数据,利用不同的编码表,转换成bytes类型的数据。
“\x”,是分隔符,用来分隔一个字节和另一个字节。
网址里面有好多的%,它们也是分隔符
ord(),获取单个字符的十进制整数编码
chr() ,把整数编码,变成汉字。