闲话字符编码(未完待续...)

什么是编码

以下定义引用自wikipedia:

“字符编码(Character encoding)是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。”

提炼一下,“字符编码是一套法则”,例如大写字母A的ACSII码值为65(二进制表示01000001)。

狭义上讲字符编码应该是一一对应的。下文讨论的都是这种编码

编码的种类

按编码长度是否定长可分为定长编码以及变长编码,例如我们平常接触最多的UTF-8
就是变长编码。其编码长度为(1~4)字节不等。
本文着重讲一下变长编码

大学的数据结构教科书也介绍了一种变长编码:
哈夫曼编码(Huffman Coding)

变长编码也称为权编码,最常见的权重基于统计得到的字符出现的频率

UTF-8编码

(Unicode符号范围 十六进制)(UTF-8编码方式 二进制)
0000 0000-0000 007F0xxxxxxx
0000 0080-0000 07FF110xxxxx 10xxxxxx
0000 0800-0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

可以通过二叉树编码法证明其正确性(任意一个字符的编码不是其他字符的前缀码)。

被误解的UNICODE 字符集

学计算机的同学们最先接触的编码方式往往是ASCII编码,而在以大写字母A为例,其二进制编码值为01000001, 并且它在内存中的值也为01000001。 所以我们也十分想当然的认为 UNICODE编码中某个字符的编码值(其实这种说法不准确),也是它真实在内存中的值。我自己也被这种想法坑了很久。(谁让他们一个翻译成ASCI字符集一个翻译成UNICODE字符集,而且都有所谓的”编码表”)

简单的来讲,UNICODE只是一个字符集和,也就是应该包括哪些字符,而这些字符具体怎么表示,用多少位表示,并没有规定。那么我们平时写代码时'\u041F'又是啥呢,这是UNICODE的 code point(中文翻译为:码点 我也不喜欢这个翻译)。具体在内存中怎么表示和具体的编码(例如 UTF-8 或者UTF-16有关,当然Java采用的是UTF-16),这样做有什么好处呢。(回忆一下面向对象编程中的依赖于接口而不是实现,聪明的你是不是有些明白了呢?)。

code point是啥?

UNICODE 定义了字符集以及这些和这些字符一一对应的code point
UNICODE 88 的 code point 取值范围为 U+0000~U+FFFF,但是地球人太会玩啦,65536已经无法满足人类的符号表示需求,UNICODE 6.0的code point取值范围为U+0000~U+10FFFF,这么一改对Java影响可不小啊,Java字符在内存中原本就是UTF-16编码的,没升级之前还可以认为是个定长编码。现在一升级,咋办?只能变成变长编码喽,采用多个UTF-16字符表示一个。所以也就引入了 code unit 的概念。一般而言对于UTF-X 其一个code unit 长度为X比特。

参考资料

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值