闲话字符编码(未完待续...)

什么是编码

以下定义引用自wikipedia:

“字符编码(Character encoding)是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。”

提炼一下,“字符编码是一套法则”,例如大写字母A的ACSII码值为65(二进制表示01000001)。

狭义上讲字符编码应该是一一对应的。下文讨论的都是这种编码

编码的种类

按编码长度是否定长可分为定长编码以及变长编码,例如我们平常接触最多的UTF-8
就是变长编码。其编码长度为(1~4)字节不等。
本文着重讲一下变长编码

大学的数据结构教科书也介绍了一种变长编码:
哈夫曼编码(Huffman Coding)

变长编码也称为权编码,最常见的权重基于统计得到的字符出现的频率

UTF-8编码

(Unicode符号范围 十六进制)(UTF-8编码方式 二进制)
0000 0000-0000 007F0xxxxxxx
0000 0080-0000 07FF110xxxxx 10xxxxxx
0000 0800-0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

可以通过二叉树编码法证明其正确性(任意一个字符的编码不是其他字符的前缀码)。

被误解的UNICODE 字符集

学计算机的同学们最先接触的编码方式往往是ASCII编码,而在以大写字母A为例,其二进制编码值为01000001, 并且它在内存中的值也为01000001。 所以我们也十分想当然的认为 UNICODE编码中某个字符的编码值(其实这种说法不准确),也是它真实在内存中的值。我自己也被这种想法坑了很久。(谁让他们一个翻译成ASCI字符集一个翻译成UNICODE字符集,而且都有所谓的”编码表”)

简单的来讲,UNICODE只是一个字符集和,也就是应该包括哪些字符,而这些字符具体怎么表示,用多少位表示,并没有规定。那么我们平时写代码时'\u041F'又是啥呢,这是UNICODE的 code point(中文翻译为:码点 我也不喜欢这个翻译)。具体在内存中怎么表示和具体的编码(例如 UTF-8 或者UTF-16有关,当然Java采用的是UTF-16),这样做有什么好处呢。(回忆一下面向对象编程中的依赖于接口而不是实现,聪明的你是不是有些明白了呢?)。

code point是啥?

UNICODE 定义了字符集以及这些和这些字符一一对应的code point
UNICODE 88 的 code point 取值范围为 U+0000~U+FFFF,但是地球人太会玩啦,65536已经无法满足人类的符号表示需求,UNICODE 6.0的code point取值范围为U+0000~U+10FFFF,这么一改对Java影响可不小啊,Java字符在内存中原本就是UTF-16编码的,没升级之前还可以认为是个定长编码。现在一升级,咋办?只能变成变长编码喽,采用多个UTF-16字符表示一个。所以也就引入了 code unit 的概念。一般而言对于UTF-X 其一个code unit 长度为X比特。

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值