各种编码方式及其来历

最新推荐文章于 2022-02-18 18:01:44 发布

无名草110

最新推荐文章于 2022-02-18 18:01:44 发布

阅读量575

点赞数

分类专栏：代码杂谈文章标签：编码标准 unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mweibiao/article/details/78038618

版权

代码杂谈专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）。

最早出现的编码方式，以7bit来表示一个字符，共计表示128种字符（2的7次方）。

美国作为发明计算机的国家，当初设计的的编码方式完全是为自己国家服务，对付英文/数字/标点完全没问题。

ISO-8859-1

以8bit来表示一个字符（即1个字节byte表示一个字符），共计表示256种字符（2的8次方）。完全兼容ASCII，即ASCII显示的字符，ISO-8859-1也完全能显示

随着计算机的发展，ASCII已经不满足非英语的西方国家（如德国、法国），所以出现了ISO-8859-1编码方式

gb2312

以2个字节（16bit）表示一个字符

gb->国标。随着计算机引入到中国，计算机的编码方式不能显示中文，于是中国自己创造了一个编码方式，用于显示中文

gbk（国标扩展）

以2个字节（16bit）表示一个字符

由于gb2312设计的时候，不能表示一些生僻字，为了展示这些生僻字，gbk就应运而生了

gb18030

以4个字节（32bit）表示一个字符

gbk用到后面发现，还是不能表示所有的中文，就增加了这种新的编码方式。目前是最完整的汉字表示形式（简体中文）

big5

以2个字节（16bit）表示一个字符

繁体中文的表示形式，台湾等地区使用较多，跟gb系列没有任何关系

由于各个国家都有自己的编码方式，国际标准组织就出了一个规范，统一所有国家的编码，这个编码方式就是unicode（\uxxxx）

unicode规定了字符集之后，由不同的实现方式，衍生出不同的编码方式

目前Unicode的占用字节数是1到6个字节

UTF-16

统一采用2个字节（16bit）表示一个字符

这是Unicode的第一个版本，能表示65536个字符，

UTF-16的存储形式，跟Unicode定义的字符集是一样的

举个例子：

“汉”这个字，在Unicode的编码是 01101100 01001001

则在UTF-16中，这个字在硬盘中存储的形式就是 01101100 01001001

说到UTF-16，就不得不说说UTF-16中蛋疼的LE（little endian）和BE（big endian）了，

还是这个例子，“汉”这个字的编码，

如果是LE的形式存储，就是：01001001 01101100 ，刚好把2个字节反过来了（据说这是为了迎合cpu的读取速度，cpu就是倒着吃数据的）

如果是BE的形式存储，就是：01101100 01001001

怎样区分一个文件是以LE形式存储还是以BE形式存储呢？简单，一般UTF-16格式存储的文件里，文件开头有个俗称为“Zero Width No-Break Space”的东西（其实就是一个字符，并且该字符无法看见），如果该字符为 0xFFFE，该文件就是LE形式的，如果为0xFEFF，则为BE形式的

UTF-8（Unicode Translation Format）

采用1到6个字节表示一个字符（编码Unicode字符）

UTF-16出现以后，已经解决编码不统一的问题了，然而，对于英美国家来说，UTF-16就显得太笨重了，因为我就是需要1个字节就能表示的，你偏要我用2个字节表示，这对存储空间就造成了很大的浪费（相当于一个文件的大小翻倍了），好了，我们现在最常用的编码方式终于闪亮登场——UTF-8。

UTF-8存储Unicode的方式比较复杂，程序把一个字节一个字节的来读取，然后再根据字节中开头的bit标志来识别是该把1个还是2个或3个字节做为一个单元来处理.

0xxxxxxx，如果是这样的01串，也就是以0开头后面是啥就不用管了XX代表任意bit.就表示把一个字节做为一个单元.就跟ASCII完全一样.
110xxxxx 10xxxxxx.如果是这样的格式，则把两个字节当一个单元
1110xxxx 10xxxxxx 10xxxxxx 如果是这种格式则是三个字节当一个单元

确定了一个字符用多少个字节以后，直接把该字符的Unicode编码逐个替换进UTF-8的格式里去就行了

综合起来，一个字节的字符有128个（7个X，2的7次方），两个字节的字符有2048个（11个X，2的11次方），3个字节的字符有131072个（17个X，2的17次方），以此类推

有点抽象，还是上面那个例子，“汉”这个字，在Unicode的编码是 01101100 01001001，用十进制表示就是27721，27721>2048并且27721<131072，所以，该字使用3字节长度的UTF-8，UTF-8编码之后，存储形式为：

11100110 10110001 10001001

所以，UTF-8用一个字节表示英文字母或者数字，完全兼容于ASCII。一般用3个字节表示一个中文

UTF-32

统一采用4个字节（32bit）表示一个字符

这是Unicode的第二个版本，因为发现2个字节已经满足不了字符的展示了。其他说明跟UTF-16类似，与UTF-8的关系也跟UTF-16类似

参考文章：http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
各种编码方式及其来历

各种编码方式
复制链接

扫一扫

专栏目录

无名草110 CSDN认证博客专家 CSDN认证企业博客

码龄14年

87: 原创

7万+: 周排名

126万+: 总排名

15万+: 访问

: 等级

2328: 积分

37: 粉丝

96: 获赞

34: 评论

344: 收藏

私信

关注

热门文章

分类专栏

Spring 1篇
jvm 9篇
java 26篇
git 5篇
代码杂谈 2篇
数据库 6篇
php 2篇
开发工具
算法 4篇
代码分析 1篇
zookeeper 2篇
dubbo 1篇
java se基础 15篇
项目总结 2篇
redis 2篇
netty 3篇
java nio 8篇
其他 1篇
http 1篇

最新评论

https小结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)使用标准目录。
Base 128 Varints 编码（压缩算法）
无名草110: 是的
Base 128 Varints 编码（压缩算法）
东方球败: 聪明的你应该已经发现了，用Base 128 Varint编码的最大表示数为2^28，----怎么判断是28次方呢？那就是4*7,最大表示4个字节长度的整数吗？
reactor模式：单线程的reactor模式
devlmsg: 请教一下博主，尽然是单线程版的，selector.wakeup()还需要吗，一直没有想明白，请指教，谢谢
ThreadLocal的使用及其原理
无名草110: 是的笔误

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。