字符编码——详解常用字符集(ASCII,ISO8859-1,GB2312,GBK,Unicode)和字符编码(UTF-8,UTF-16)
分析UTF-8编码
UTF-8编码中,使用的是变成的字节序列表示字符,字符对应的代码点code point
可能使用的是1-4个字节,这样一个字节就是一个代码单元。一个代码点code point
可能由1-4个代码单元code unit
组成
十进制 | Unicode编码 | UTF-8字节流 |
---|---|---|
0-127 | 0x000000-0x00007F | 0xxxxxxx(7位) |
128-2047 | 0x000080-0x0007FF | 110xxxxx 10xxxxxx(11位) |
2048-65535 | 0x000800-0x00FFFF | 1110xxxx 10xxxxxx 10xxxxxx(16位) |