什么是编码
以下定义引用自wikipedia:
“字符编码(Character encoding)是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。”
提炼一下,“字符编码是一套法则”,例如大写字母A
的ACSII码值为65(二进制表示01000001)。
狭义上讲字符和编码应该是一一对应的。下文讨论的都是这种编码
编码的种类
按编码长度是否定长可分为定长编码以及变长编码,例如我们平常接触最多的UTF-8
就是变长编码。其编码长度为(1~4)字节不等。
本文着重讲一下变长编码
大学的数据结构教科书也介绍了一种变长编码:
哈夫曼编码(Huffman Coding)
变长编码也称为权编码,最常见的权重是基于统计得到的字符出现的频率
。
UTF-8编码
(Unicode符号范围 十六进制) | (UTF-8编码方式 二进制) |
---|---|
0000 0000-0000 007F | 0xxxxxxx |
0000 0080-0000 07FF | 110xxxxx 10xxxxxx |
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
可以通过二叉树编码法
证明其正确性(任意一个字符的编码不是其他字符的前缀码)。
被误解的UNICODE 字符集
学计算机的同学们最先接触的编码方式往往是ASCII编码
,而在以大写字母A
为例,其二进制编码值为01000001
, 并且它在内存中的值也为01000001
。 所以我们也十分想当然的认为 UNICODE编码
中某个字符的编码值(其实这种说法不准确),也是它真实在内存中的值。我自己也被这种想法坑了很久。(谁让他们一个翻译成ASCI字符集一个翻译成UNICODE字符集,而且都有所谓的”编码表”)
简单的来讲,UNICODE只是一个字符集和,也就是应该包括哪些字符,而这些字符具体怎么表示,用多少位表示,并没有规定。那么我们平时写代码时'\u041F'
又是啥呢,这是UNICODE的 code point(中文翻译为:码点 我也不喜欢这个翻译)。具体在内存中怎么表示和具体的编码(例如 UTF-8 或者UTF-16有关,当然Java采用的是UTF-16),这样做有什么好处呢。(回忆一下面向对象编程中的依赖于接口而不是实现,聪明的你是不是有些明白了呢?)。
code point是啥?
UNICODE 定义了字符集以及这些和这些字符一一对应的code point
UNICODE 88
的 code point 取值范围为 U+0000~U+FFFF
,但是地球人太会玩啦,65536
已经无法满足人类的符号表示需求,UNICODE 6.0的code point取值范围为U+0000~U+10FFFF
,这么一改对Java影响可不小啊,Java字符在内存中原本就是UTF-16
编码的,没升级之前还可以认为是个定长编码。现在一升级,咋办?只能变成变长编码喽,采用多个UTF-16
字符表示一个。所以也就引入了 code unit 的概念。一般而言对于UTF-X 其一个code unit 长度为X比特。
参考资料