编码问题
ASCII编码
A :00000010 8位 一字节 1个英文字符
Unicode编码
A:00000010 00000010 00000010 00000010 32位 四个字节 1个英文字符
中:00000010 00000010 00000010 00011010 32位 四个字节 1个中文字符
utf-8编码
A:00110011 8位 一个字节 1个英文字符
中:00110011 00110011 00110011 24位 三个字节 1个中文字符
gbk编码
A:00110011 8位 一个字节 1个英文字符
中:00110011 00110011 00110011 16位 两个字节 1个中文字符
PS:注意
- 各编码之间的二进制,是不能互相识别的,会产生乱码。
- 文件的存储,传输,不能用Unicode(只能是utf-8、utf-16、gbk、gb2312、ASCII等)
- Python3:str在内存中是用Unicode编码。
bytes 类型
- 对于英文:
- str :表现形式: s = "run"
- 编码方式:010111
- str :表现形式: s = "run"