1.传统的ASCII编码:8位 0~7F
扩展的ASCII码表:16位 0~FF
2.Unicode编码:
1)什么是Unicode:这是一种编码方案,说白了是一张包含全世界所有文字的一个编码表,只要这个世界上存在的文字符号,统统给你一个唯一的编码
Unicode编码范围是:0-0x10FFFF,可以容纳100多万个符号
2)Unicode的问题:Unicode知识一个符号及,它只规定了符号的二进制码,却没有规定这个二进制码应该如何存储
3、如何存储Unicode:UTF-16 / UTF-8 是Unicode的实现方式
1)UTF-16:UTF-16编码以16位无符号整数为单位,注意是16位为一个单位,不表示一个字符就只有16位。这个要看字符的Unicode编码处在什么范围而定,有可能是2个字节,也可能是4个字节。现在机器上的Unicode编码一般指的是UTF-16.
2)UTF-8:
Unicode编码(16进制) UTF-8字节流(二进制)
000000-00007F 0xxxxxxx
000080-0007FF 110xxxxx 10xxxxxx
000800-00FFFF 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
4、判断文本文件的存储格式:
BOM(Byte Order Mark)
UTF-8 EF BB BF
UTF-16LE FF FE
UTF-16BE FE FF