字符编码，扩展unicode，三字节表示一个汉字，或两个字母

知堂织韵

于 2021-11-28 06:59:00 发布

阅读量2.4k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/proorck2019/article/details/121586859

版权

笔记专栏收录该内容

82 篇文章 0 订阅

订阅专栏

这篇博客讨论了Unicode字符集的扩展，旨在解决不同语言在UTF-8和UTF-16编码下占用字节数的不平衡问题。提出了扩展至24比特，使用3字节编码汉字和2个字母的方案，以平衡美国和俄罗斯等语言的编码需求。同时，文章提及了统一编码不同语言以节省空间的可能性，并对四字节编码单词的方案进行了分析，认为其在存储和空间效率上存在挑战。

摘要由CSDN通过智能技术生成

Unicode有一百多万个字符，0-0x10FFFF，占21比特。

Unicode有多种传输格式，如UTF-8，UTF-16等。

对于UTF-8，一个英文字母占1字节，一个俄文字母占2字节，在美国和俄罗斯之间并不平衡。
对于UTF-16，美国和俄罗斯平衡了，都用2字节表示一个字母。但是，汉字也用2字节表示，汉语的句子明显短，又不平衡了。

为解决以上不平衡，扩展unicode至24比特，用3字节表达一个汉字，或是两个字母。

现在世界上查明的有5651种语言。在这些语言中，有1400多种还没有被人们承认是独立的语言，或者是正在衰亡的语言。

设unicode值从0x11 0000开始扩展，即十进制的1114112：
1114112+5575*2809=16774288 略小于 2²⁴
在这里进行的是估算，5651-5575=76种，约有76种语言被忽略了。或者某些语言不需要2809个码位。
以英语为例，2809个码位怎么填充
26*2+1=53
53*53=2809
大小写字母加空格，共53个符号，
假设，英语从0x11 00 00到0x11 0A F8：
例1：
有编码0x11 01 23，求它表示了哪两个字母？
0x11 01 23-0x11 00 00=279
279=5*53+14→(5, 14)→fo

例2：
A cup of tea.
大写的A和空格、cu、p和空格、of、空格和t、ea、句号都用3字节表示，一共是21字节。若是UTF-8则是13字节，1.615倍。若是UTF-16则是26字节，0.808倍。

至此，用3字节表示一个汉字，或2个字母。
有了这个编码，美国和俄罗斯没必要争执了，都用1.5字节表示一个字母。

英法德意等语言十分相似，可以一起编码，约有100个字母，占用100*100=10000个码位。单独一个英语需要2809个码位，还是统一起来编码省空间。

另一套方案，四字节表示一个单词
2³²/5651=76万
共2³²个码位，除以5651种语言，得到每种语言有76万个单词。
这需要很大的编码器、解码器，估计一下，储存一个单词用congratulations，15个字节，2³²*15=60GB，这也太大了，我都觉得不可能。而且，这套方案用四字节表示一个汉字或汉语单词，并不省空间。76万个码位看似充裕，实际上，对于英语这种灵活的语言，有17万到100万个单词，76万仍显约束。

知堂织韵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码，扩展unicode，三字节表示一个汉字，或两个字母

Unicode有一百多万个字符，0-0x10FFFF，占21比特。Unicode有多种传输格式，如UTF-8，UTF-16等。对于UTF-8，一个英文字母占1字节，一个俄文字母占2字节，在美国和俄罗斯之间并不平衡。对于UTF-16，美国和俄罗斯平衡了，都用2字节表示一个字母。但是，汉字也用2字节表示，汉语的句子明显短，又不平衡了。为解决以上不平衡，扩展unicode至24比特，用3字节表达一个汉字，或是两个字母。现在世界上查明的有5651种语言。在这些语言中，有1400多种还没有被人们承认是
复制链接

扫一扫

专栏目录