1、字节
- 1字节(byte)=8比特(bit);
- 一个字节能表示的最大数字是2^8-1=255;
- 一个英文字母是一个字符;
- 一个汉字是一个字符;
2、编码
ASCII
编码,占1个字节,美国使用,只有127个字符,包括大小写英文字母、数字和符号,例如大写字母A
编码为65
,小写字母z
编码为122
;- 中国的中文编码为
GB2312
,一个汉字占用2
个字节; - 日本的日文编码为
Shift_JIS
; - 韩国的韩文编码为
Euc-kr
;
在多语言混合的文本中,会显示乱码
Unicode
编码把所有语言都统一到一套编码里,一般有2
个字节;UTF-8
编码,可变长编码,把一个Unicode
字符根据不同的数字大小编码成1-6
个字节,节省空间,英文字母占用1
个字节,常用汉字占用3
个字节,生僻的字符占用4-6
个字节;
ASCII
可以看做UTF-8
的一部分
3、现在计算机系统通用的字符编码工作方式:
-
在内存中以
Unicode
形式存在,在硬盘中以UTF-8
形式存在; -
在python中用
ord()
函数和chr()
函数转换字符和编码;
例如(python3
):
import sys
print(ord('A'