未来的汉字编码

UTF-8inf格式

一字节模式兼容ASCII码,是0*******的样子。
两字节以上都是多字节模式,是多个1*******加上一个0*******结尾。
例如,四字节模式为:
1******* 1******* 1******* 0*******
每个字节有7比特可用,三字节即可表达unicode全部字符,因为unicode范围是0~0x10FFFF,21比特。
理论上讲,UTF-8inf可以表达任意大数,inf正是“无穷”的意思。

汉字编码

配合UTF-8inf格式,选择14比特为单位,有16384个码位,即两字节表示一个字根,拼字。
字根中包括常用字、偏旁部首、还有描述结构的符号,例如:上下结构、左中右结构、品字三遍结构。

例1

宝盖头 左右重复 馬 四点底
上述四个字根,构建了一个汉字,这个字不在任何字符集中,是个人造字。用绘图的方式把它画出来。4个字根占用8字节。

例2

赢 四点底 走之旁
上述三个字根构成一个汉字,也是个人造字。遇到四点底,隐含着上下结构,和它左边的一个单位相结合。走之旁同理,隐含着半包围结构,要和左边的一个单位相结合。

例3

艹 沟
草字头隐含着上下结构,和右边的一个单位相结合。两个字根占用四字节。

例4

品字三遍结构 龍
这个字是龘,念dá。它由2个字根组成,占用4字节。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值