编码的预备知识
首先看一下保存在文件中的GB18030编码:
可见GB18030也涵盖了日语的汉字。 B9 E2 A4 C8 E9 9C 2C B9 E2 D3 EB D3 B0 => 光と闇,光与影
这中间小于0x7F的byte只有一个2C,这个2C应该就是逗号了。GB18030的编码规律:
字节长度 | 码位空间 | 码位数目 | |||
---|---|---|---|---|---|
单字节 | 0x00~0x80 | 129 | |||
双字节 | 字节1:0x81-0xFE | 字节2: 0x40-0x7E,0x80-0xFE | 23940 | ||
四字节 | 字节1:0x81-0xFE | 字节2 |