UTF-8inf格式
一字节模式兼容ASCII码,是0*******
的样子。
两字节以上都是多字节模式,是多个1*******
加上一个0*******
结尾。
例如,四字节模式为:
1******* 1******* 1******* 0*******
每个字节有7比特可用,三字节即可表达unicode全部字符,因为unicode范围是0~0x10FFFF,21比特。
理论上讲,UTF-8inf可以表达任意大数,inf正是“无穷”的意思。
汉字编码
配合UTF-8inf格式,选择14比特为单位,有16384个码位,即两字节表示一个字根,拼字。
字根中包括常用字、偏旁部首、还有描述结构的符号,例如:上下结构、左中右结构、品字三遍结构。
例1
宝盖头 左右重复 馬 四点底
上述四个字根,构建了一个汉字,这个字不在任何字符集中,是个人造字。用绘图的方式把它画出来。4个字根占用8字节。
例2
赢 四点底 走之旁
上述三个字根构成一个汉字,也是个人造字。遇到四点底,隐含着上下结构,和它左边的一个单位相结合。走之旁同理,隐含着半包围结构,要和左边的一个单位相结合。
例3
艹 沟
草字头隐含着上下结构,和右边的一个单位相结合。两个字根占用四字节。
例4
品字三遍结构 龍
这个字是龘,念dá。它由2个字根组成,占用4字节。