字符集
1.ASCII的七位字符集 128个字符
2.标准ASCII中最高位(b7)用作基偶校验
3.ISO-8859-1扩展ascii 128-255拉丁
ANSI 标准
1.多字节字符集(Multi-ByteChactacter Set)
2.0到127之间的字符,依旧是一个字节代表一个字符
3.2字节来表示一个字符
GB2312 GBK编码
1.ANSI编码6763常用汉字
2.两个大于127的字符表示一个汉字
3.GBK编码GB2312的扩展汉字21003个
UTF-8
1.变长的编码方式
2.单字节与ASCII码相同
3.对于n字节的字符(n>1),首字节前n位为1,n + 1为0,后面字节前两位都为10
4.1字节 0xxxxxxx
5.2字节 110xxxxx 10xxxxxx
6.3字节 1110xxxx 10xxxxxx 10xxxxxx
7.4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-16 UTF32
1.UTF-16(2字节 或 4字节)
2.UTF-32(4字节)
字节序 BOM
1.LE(littleendian):小字节字节序 低位在前
2.0x001A23 23 1A 00
3.BE(big endian):大字节字节序
4.BOM字节序标志头
5.文本头FE FF 是 BE FF FE是LE