编辑器保存的是UTF-8的编码,不是unicode字符序列
此处仅作为演示
转换原理
十进制 | Unicode编码 |
---|---|
0-127 | 0x000000-0x00007F |
128-2047 | 0x000080-0x0007FF |
2048-65535 | 0x000800-0x00FFFF |
65535-114111 | 0x010000-0x10FFFF |
一般汉字都是在第三栏,UTF-8编码形如:
1110xxxx 10xxxxxx 10xxxxxx
unicode汉字编码一般为16位形如:
xxxx xxxx xxxx xxxx
转换方式如下:
- UTF-8的低字节
unicode汉字编码中的低6位和1000 0000
组合 - UTF-8的中字节
unicode汉字编码中的第7位到12位和1000 -0000
组合 - UTF-8的高字节
unicode汉字编码中的高4位和