闲话字符编码（未完待续...）

最新推荐文章于 2020-07-30 08:45:06 发布

键君

最新推荐文章于 2020-07-30 08:45:06 发布

阅读量516

点赞数

分类专栏：计算机基础乱码字符集文章标签：字符编码 UTF-8 code-point code-unit

本文链接：https://blog.csdn.net/qianxc88/article/details/49107231

版权

字符集同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

计算机基础

3 篇文章 0 订阅

订阅专栏

乱码

1 篇文章 0 订阅

订阅专栏

什么是编码

以下定义引用自wikipedia:

“字符编码（Character encoding）是一套法则，使用该法则能够对自然语言的字符的一个集合（如字母表或音节表），与其他东西的一个集合（如号码或电脉冲）进行配对。”

提炼一下，“字符编码是一套法则”，例如大写字母A的ACSII码值为65(二进制表示01000001)。

狭义上讲字符和编码应该是一一对应的。下文讨论的都是这种编码

编码的种类

按编码长度是否定长可分为定长编码以及变长编码,例如我们平常接触最多的UTF-8
就是变长编码。其编码长度为(1~4)字节不等。
本文着重讲一下变长编码

大学的数据结构教科书也介绍了一种变长编码:
哈夫曼编码(Huffman Coding)

变长编码也称为权编码，最常见的权重是基于统计得到的字符出现的频率。

UTF-8编码

(Unicode符号范围十六进制)	（UTF-8编码方式二进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

可以通过二叉树编码法证明其正确性(任意一个字符的编码不是其他字符的前缀码)。

被误解的UNICODE 字符集

学计算机的同学们最先接触的编码方式往往是ASCII编码，而在以大写字母A为例，其二进制编码值为01000001, 并且它在内存中的值也为01000001。所以我们也十分想当然的认为 UNICODE编码中某个字符的编码值(其实这种说法不准确)，也是它真实在内存中的值。我自己也被这种想法坑了很久。(谁让他们一个翻译成ASCI字符集一个翻译成UNICODE字符集，而且都有所谓的”编码表”)

简单的来讲，UNICODE只是一个字符集和，也就是应该包括哪些字符，而这些字符具体怎么表示，用多少位表示，并没有规定。那么我们平时写代码时'\u041F'又是啥呢，这是UNICODE的 code point(中文翻译为:码点我也不喜欢这个翻译)。具体在内存中怎么表示和具体的编码(例如 UTF-8 或者UTF-16有关，当然Java采用的是UTF-16),这样做有什么好处呢。(回忆一下面向对象编程中的依赖于接口而不是实现，聪明的你是不是有些明白了呢？)。

code point是啥？

UNICODE 定义了字符集以及这些和这些字符一一对应的code point
UNICODE 88 的 code point 取值范围为 U+0000~U+FFFF,但是地球人太会玩啦，65536已经无法满足人类的符号表示需求，UNICODE 6.0的code point取值范围为U+0000~U+10FFFF,这么一改对Java影响可不小啊，Java字符在内存中原本就是UTF-16编码的，没升级之前还可以认为是个定长编码。现在一升级，咋办？只能变成变长编码喽，采用多个UTF-16字符表示一个。所以也就引入了 code unit 的概念。一般而言对于UTF-X 其一个code unit 长度为X比特。

参考资料