UTF-64

之前的两篇博客讨论了UTF-48编码,其中的“借比特与还比特”功能并不容易实现。抛弃并重新设计后,有了UTF-64。它统一采用13比特做语言编码,之后用64-13=51比特做字符编码。

51=7×7+2
51=8×6+3
51=9×5+6(舍去9比特模式)
51=10×5+1
51=11×4+7(舍去11比特模式)
51=12×4+3
51=17×3+0
51=21×2+9=25×2+1(unicode还有扩充空间)

8字节表示2个unicode,或3个汉字。

因为9比特模式和10比特模式,都是8字节表示5个符号,所以,舍去9比特模式,遇到有500个符号的语言,直接使用10比特模式。同理,舍去11比特模式,并且原本21比特的unicode占用25比特,还有扩展空间。

总之,有7,8,10,12,17,25这六种模式。

抛弃借比特与还比特之后,统一采用13比特表示语言编码,51比特表示字符编码。每种语言都有51比特可用,公平合理,简单高效。

例如,双unicode模式的语言编码可以是0,即13比特的0,三汉字模式的语言编码可以是1。
0000000000000.x.[25比特][25比特]
0000000000001.[17比特][17比特][17比特]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值