字符->编码
1. 字符表 (Character repertoire)
普通的字符
2. 字符集 (CS: Coded Character Set)
字符和对应的数字
3. 字符编码表 (CEF: Character Encoding Form)
将字符对应的数字,映射为字节存储
4. 字符编码方案 (CES:Character Encoding Scheme)
对于CEF得到的比特值具体如何在计算机中进行存储,传输。因为存在大端小端的问题,这就会跟具体的操作系统相关了。
好像和BOM有点关系
Unicode
Unicode是字符集
UCS-2
本来按照UCS-2编码表需要每个字符占两个字节.
比如字符”I”和字符”日”
I 00000000 01001001
日 01100101 11100101
可以看出来,英文字符”I” 编码的前九位都是0, 非常的浪费。
UTF-8
UTF-8总体上可以减少浪费
它把编码的前一位或几位用作标识,让计算机知道需要把一个字节当作一个字符,还是多个字节当作一个字符
这样就可以只用一个字节来表示英文
I 01001001
日 11100110 10010111 10100101
BOM(Byte Order Mark)
因为有看到UTF-8 WITH BOM 这种选项,就了解一下BOM是什么东西.
- UTF-8
在传输过程中, UTF-8是以单字节作为一个编码单元传输, 对面的机器收到之后,不用多想, 直接去理解就好了. - UTF-16
在传输过程中, UTF-16有时候是以双字节作为一个编码单元传输,对面机器收到之后, 按照不同的场景来读取, 有的场景里是大端字节序,先读到的就是高位字节,后读到的就是低位字节。反之亦然.
为了保证最后的顺序都是传输之前的顺序,所以需要BOM放在文件开头来做个标记, 也不知道这样理解对不对