二进制与字符编码

最新推荐文章于 2023-09-13 18:07:39 发布

nuxos

最新推荐文章于 2023-09-13 18:07:39 发布

阅读量236

点赞数

文章标签：前端 java html

本文链接：https://blog.csdn.net/qq_39673469/article/details/131277608

版权

二进制与字符编码

bit

计算机只认识0和1这种二进制数据。一个bit可以表示0或者1。bit是计算机成最基本的存储单位。

byte

为了方便人机交互，早期程序员发明了一张表叫做ASCII表，使用ASCII表来表示常见的字符符号，暂用8个bit，对应二进制则可以表示0-127个数字，每个数字代表一个常用符号。
所以每个符号都会占用8个bit,那么在计算机中8bit叫做一个字节（byte）。

1 byte = 8bit
1 kb = 1024 byte
1 mb = 1024 kb
1 gb = 1024 mb
1 tb = 1024 gb

字符

字符和字节不太一样，任何一个文字或符号都是一个字符，但所占字节不一定，不同的编码导致一个字符所占的内存不同。

例如：标点符号+是一个字符，汉字我们是两个字符，在GBK编码中一个汉字占2个字节，在UTF-8编码中一个汉字占3个字节。

随着时代的发展，程序员们希望在计算机中显示字符，但计算机只能识别0和1的二进制数。于是就有了编码规范。

原文链接：

字符编码

ASCII码

ASCII (American Standard Code for Information Interchange)：美国信息交换标准代码是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准 ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年，最后一次更新则是在1986年，到目前为止共定义了128个字符 [1] 。

汉字编码集

GB2312

GB2312-80 是 1980 年制定的中国汉字编码国家标准。共收录 7445 个字符，其中汉字 6763 个。GB2312 兼容标准 ASCII码，采用扩展 ASCII 码的编码空间进行编码，一个汉字占用两个字节，每个字节的最高位为 1。具体办法是：收集了 7445 个字符组成 94*94 的方阵，每一行称为一个“区”，每一列称为一个“位”，区号位号的范围均为 01-94，区号和位号组成的代码称为“区位码”。区位输入法就是通过输入区位码实现汉字输入的。将区号和位号分别加上 20H，得到的 4 位十六进制整数称为国标码，编码范围为 0x2121～0x7E7E。为了兼容标准 ASCII 码，给国标码的每个字节加 80H，形成的编码称为机内码，简称内码，是汉字在机器中实际的存储代码GB2312-80 标准的内码范围是 0xA1A1～0xFEFE [7] 。

GBK

GBK全称《汉字内码扩展规范》，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字。GBK字符集中，中文字符占2个字节，英文占1个字节。采用单双字节变长编码方式，英文使用单字节编码，完全兼容ASCII字符编码，中文部分采用双字节编码。

GB18030

国家标准GB18030-2000《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一。GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的，并且将作为一项国家标准在2001年的1月正式强制执行。GB18030-2005《信息技术中文编码字符集》是我国制订的以汉字为主并包含多种我国少数民族文字（如藏、蒙古、傣、彝、朝鲜、维吾尔文等）的超大型中文编码字符集强制性标准，其中收入汉字70000余个 [8] 。

ISO-8859-1

ISO-8859-1收录的字符除ASCII收录的字符外，还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性，MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器，ISO-8859-1编码是一个8位的容器。
由此可见，ISO-8859-1只占1个字节，且MySQL数据库默认编码就是ISO-8859-1，有时，tomcat服务器默认也是使用ISO-8859-1编码，然而ISO-8859-1是不支持中文的，有时这就是在浏览器上显示乱码的原因。

Unicode

从以上几种编码规范可以看出，各种编码规范互不兼容，且只能表示自己需要的字符，于是，国际标准化组织（ISO）决定制定一套全世界通用的编码规范，这就是Unicode。
Unicode包含了全世界所有的字符。Unicode最多可以保存4个字节容量的字符。也就是说，要区分每个字符，每个字符的地址需要4个字节。这是十分浪费存储空间的，于是，程序员就设计了几种字符编码方式，比如：UTF-8,UTF-16,UTF-32。
最广为程序员使用的就是UTF-8，UTF-8是一种变长字符编码，注意：UTF-8不是编码规范，而是编码方式。我为大家介绍一下UTF-8的编码规则。
编码规则表

Unicode十六进制码点范围	UTF-8 二进制
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

<br />如上表所示，对于只需要1个字节的字符，UTF-8采用ASCII码的编码方式，最高位补0来表示。<br />例如：01000001我们就是用01000001来表示，对于一个字节的字符，其实就是直接使用地址表示。<br />而对于n个字节的字符（n>1），即大于一个字节的字符，采用第一个字节前n位补1。第n+1位填0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。<br />例如：汉字`严`的Unicode码是4E25转换成二进制就是`00000000 00000000 01001110 00100101`有效位共15位，根据上表可知使用UTF-8字符编码后占3个字节，因此前3位是1，第4位（n+1位）是0，后面两个字节中每个字节的前两位都是10,即1110 xxxx 10 xxxxxx 10xxxxxx。填充进去后就变成了`1110 0100 10 111000 10 100101`共计24位占3个字节。<br />由此可见，**英文在UTF-8字符编码后只占1个字节，中文占了3个字节**。<br />虽然UTF-8编码没有GBK编码占的空间小，但他胜在面向全世界，至于使用哪一种编码还是取决于具体的使用环境

编码与解码

解码

一串二进制数，使用一种编码方式，转换成字符，这个过程我们称之为解码。就像解开密码一样，程序员可以选用任意的编码方式进行解码，但往往只有一种编码方式可以解开密码显示出正确的文字，而使用错误的编码方式，产生其他不合理的字符，这就是我们通常说的————乱码！

编码

一串已经解码后的字符，我们也可以选用任意类型的编码方式重新转换成一串二进制数，这个过程就是编码，我们也可以称之为加密过程，无论使用哪一种编码方式进行编码，最终都是产生计算机可识别的二进制数，但如果编码规范的字库表不包含目标字符，则无法在字符集中找到对应的二进制数。这将导致不可逆的乱码！例如：像ISO-8859-1的字库表中不包含中文，因此哪怕将中文字符使用ISO-8859-1进行编码，再使用ISO-8859-1进行解码，也无法显示出正确的中文字符。