浅谈 ------- “编码”

最新推荐文章于 2023-07-27 18:47:27 发布

原创最新推荐文章于 2023-07-27 18:47:27 发布 · 618 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

聊聊 “编码”

编码是信息从一种形式或格式转换为另一种形式的过程，常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码，我们就会得到一些乱码。

计算机的底层是二进制。也就是说，计算机只认识 0 和 1。既然如此，计算机是如何展示文字、符号等信息的呢？

计算机科学家们想到了编码，将数字和文字、符号一一对应。比如比如 0000 对应 a，0001 对应 b，0010 对应 c（实际上并不是这样对应的，在这里只是举个栗子）

ASCII编码

因为英文字母比较少，加上常用的符号等，总共也就 100 多个。计算机科学家们用一个字节中的 7 位（总共 8 位）定义了一套编码，总共 128（2 的 7 次方）个字符，这就是 ASCII 编码。

随着科技的发展，计算机进入了欧洲国家。128 个字符对美国来说是够用的，但欧洲一些国家的语言，比如法语中，字母上方有注音符号，128 个字符就不够用了。因此欧洲国家决定将最后一个闲置的位也利用上，这样欧洲的编码就有 256（2 的 8 次方）个字符了。

但是不同的国家有不同的字母，这就导致前 128 个字符是一样的，后 128 个字符在不同的国家是不一样的。

GBK编码

不久后，计算机便来到了中国。中国的汉字可是有 10 万多个，256 个是远远不够的。中国计算机科学家们便重新定义了一套编码，也就是 GB2312，这套编码包含了 6763 个常用汉字和一些常用符号等。之后为了扩展能显示的汉字内容，还推出了 GBK 等编码标准。

那么问题来了，每个国家都有自己的编码，还都不一样。发封电子邮件给外国人，在他们看来就都是乱码，这可怎么行！

Unicode编码

于是，Unicode（统一码）便出现了。Unicode 是一个很大的集合，现在的规模可以容纳 100 多万个符号，并且每个符号的编码都不一样。

但是 Unicode 有个缺点，就是占用字节过多。英文字母本来只需要一个字节就够了，现在为了统一得用 3、4 个字节，很是浪费！因此导致 Unicode 在很长一段时间内无法推广，直到互联网的出现。

UTF-8编码

计算机科学家又想到了新的方法，推出了 UTF-8 编码，UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 即解决了乱码问题，也解决了字节浪费的问题，是现在最常用的编码方式。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。