计算机编码

最新推荐文章于 2024-01-23 09:23:19 发布

o_w_olf

最新推荐文章于 2024-01-23 09:23:19 发布

阅读量854

点赞数 3

分类专栏：计算机操作系统文章标签：编码计算机 ascii

计算机操作系统专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、基础
位 bit 最小的单元
字节 byte 机器语言的单位
1byte=8bits
1KB=1024byte
1MB=1024KB
1GB=1024MB
二、ASCII码
我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从0000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。ASCII是最基本的编码，它定义了0～127对应的字符，包括最基本的英文字母、标点符号。其余128~256组合不在ASCII码里面。ASCII码无法表示中文。ASCII编码的文本，每一个字节都是0～127，如果某个字节大于127，那它一定不是ASCII编码。
三、GB*编码/ANSI
英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。为了用计算机记录并显示中文，中国人发明了GB系列编码。GB系列编码定义了中文汉字、标点的编码。按照GB系列编码，在一段文本中，如果一个字节是0～127，那么这个字节的含义同ASCII编码，否则，这个字节和下一个字节共同组成汉字（或是GB编码定义的其他字符）。因此，GB系列编码向下兼容ASCII，也就是说，如果一段用GB编码文本里的所有字符都在ASCII中有定义，那么这段编码和ASCII编码完全一样。

GB编码早期收录的汉字不足一万个，基本满足日常使用需求，但不包含一些生僻的字，后来在一个个新版本中加进去。最早的GB编码是GB2312，后来有GBK，最新的是GB18030，加入了一些国内少数民族的文字，一些生僻字被编到4个字节，每扩展一次都完全保留之前版本的编码，所以每个新版本都向下兼容。

同样，日文、韩文、世界各国文字都有了它们各自的编码（如果ASCII不能满足使用要求的话）。这些编码都和GB编码相似，兼容ASCII并用两个字节表示一个字。

所有这些各国文字编码，微软统称为ANSI 。所以即使知道是ANSI，我们还需要知道这是哪国文字才能解码，因为这些编码都互相冲突。另外，你无法用一段ANSI 编码表示既有汉字、又有韩字的文本。
四、Unicode
世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。

可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，产生了Unicode字符集，它固定使用16 bits(两个字节)来表示一个字符，共可以表示65536个字符，标准的 Unicode 称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。但是它只定义了每一个字符对应一个整数（目前包含了十万多个字符，其中0～127和ASCII完全一样），但它没有定义这个整数如何变成字节。当你告诉我这段数据是Unicode编码，啊，不好意思，我还是不知道该怎么解码——因为变成字节流的格式不只一种，它们都叫做“Unicode转换格式”，所以这里面就有了一大堆UTF：UTF-8、UTF-8 with BOM、UTF-8 without BOM、UTF-16、UTF-16LE、UTF-16BE…… 还有很少见的UTF-32、，早期还会听说过UCS-2、UCS-4……

五、 Unicode的问题

需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

比如，汉字”严”的unicode是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

这里就有两个严重的问题，第一个问题是，如何才能区别Unicode和ASCII？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

它们造成的结果是：1）出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。2）Unicode在很长一段时间内无法推广，直到互联网的出现

六、UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

下表总结了编码规则，字母x表示可用编码的位：

跟据上表，解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

已知”严”的unicode是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800-0000 FFFF），因此”严”的UTF-8编码需要三个字节，即格式是”1110xxxx 10xxxxxx 10xxxxxx”。然后，从”严”的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，”严”的UTF-8编码是”11100100 10111000 10100101”，转换成十六进制就是E4B8A5。
七、其他编码
等等，为什么Windows记事本里有个保存选项是Unicode？这个稍后说。

先说最常见的UTF-8：它将一个字符编为1-4个字节，其中一个字节的字符和ASCII 完全一致，所以它也向下兼容ASCII。和ANSI类似，UTF-8第一个字节决定了之后多少个字节是一组好基友。多数汉字在UTF-8里为3个字节，有一些生僻的汉字会编到4字节。

我们迎来第一种不兼容ASCII的编码：UTF-16。UTF-16以每2个字节为一个单元，每个字符由1-2个单元组成，所以每个字符可能是2个字节或者4个字节，包括最常见的英文字母都会编成两个字节。大部分汉字也是2个字节，少部分生僻字为4个字节。UTF-16还有讲究，一个单元中的两个字节的顺序不是唯一的。学过计算机原理的同学知道，计算机中表示一个整数分两种格式：低位在前高位在后，或者反过来。例如用两个字节表示260这个整数，可能是：

低位在前：04 01 （260=4+256*1）

高位在前：01 04 （260=256*1+4）

低位在前的UTF-16叫UTF-16LE，高位在前的叫UTF-16BE。目前绝大部分的计算机系统都使用低位在前的整数格式，所以如果没有声明，UTF-16默认是LE。

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。
“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。
我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

早期Unicode收编的字还不多时，两个字节足够表示所有字符，所以有一种固定为两个字节的UTF，叫UCS-2。UTF-16的两个字节部分和UCS-2完全一样，所以UTF-16向下兼容UCS-2。UCS-2同样分LE和BE。而Windows的记事本还有Windows其它地方所谓的Unicode，当代的Windows里其实是UTF-16LE，在Windows XP和更早的版本里是UCS-2LE。微软（又是微软）正是混淆Unicode概念的祸首，微软你这么讨厌你家人知道吗？

此外，UTF-32和UCS-4固定为4个字节一个字符，同样分LE和BE。

还没完，这么多字符编码，软件打开时如何知道是哪个编码？于是出现了BOM：在一个文本文件或者一段字符编码前加上几个固定的字节用于识别，这些字节保证不对应任何一个字符，所以软件一读就能验明正身：

EF BB BF －我是UTF-8

FF FE －我是UTF-16LE

FE FF －我是UTF-16BE

（没有BOM，直奔主题）－你猜？

不错，没BOM只能靠猜了。软件读入文件时可以所有编码都试一下，看哪个像。另外，BOM只针对Unicode系列编码，ANSI通通不会有BOM。很显然，没有BOM难免偶然猜错。网上就流传了一个神奇的段子：打开Windows记事本，打入“联通”两个字，保存，关闭，再打开，变成了个黑块。记事本用ANSI（GB18030）保存联通这两个字，刚好这两个字的GB18030编码看起来很像UTF-16，于是就当成UTF-16来打开……

BOM听起来很不错，但实际是个讨厌的设计，因为它和很多协议、规范不兼容，这是题外话。

于是，UTF-8 with BOM、UTF-16 without BOM 你们就懂了。等等，如果不提BOM，究竟有BOM还是没有BOM？—— 又是一个十分纠结的问题，Windows里的软件一般都默认有BOM，而其它系统都默认没有BOM——可能是因为Windows常要兼容ANSI的原因，特别依赖BOM来防止会错意。

八、谁是正统
这么多种编码，用来写文章就罢了，打开个文档看到乱码就退出、换个程序或者换个编码再打开；但写程序时可半点马虎不得，各种程序开发环境对编码支持都不一样，如果编码没搞好，你写好的程序可能在别人计算机上就运行不起来了。如果我开发跨平台的代码，而且要有中文（注释），哪用什么编码好？以下是我所知道各开发环境／编译器支持常见编码情况（所有＝ANSI、UTF-8 BOM and no BOM、UTF-16LE BOM and no BOM）：

Visual Studio：所有，保存默认ANSI 。
VC编译器：所有，除了UTF-8 without BOM（直接当成是ANSI ）
Windows记事本：所有，保存默认ANSI，无法保存无BOM。
XCode：只支持 UTF-8 without BOM。
GCC：所有
vim：所有，保存默认为系统默认编码，一般是UTF-8 without BOM。
Eclipse：所有，保存默认不明，Mac下居然是ANSI （我们中出了个叛徒）。
ANSI是无法跨境的，用GB写的文档拿去韩国就果断乱码了。光是简体中文系统，ANSI 也是经常被认错的，Eclipse里经常（不总是）出现打开ANSI 文件是乱码的情况，这是因为ANSI 没有很明显的特征。XCode和Mac的文本编辑器打开ANSI 直接是乱码，因为明确不支持。ANSI 容错性普遍比较差，一个字节错了可能导致后面的字通通挂掉。为了防止Eclipse等发神经，也为免跨国带来麻烦，更为了你自己的数据安全，请远离ANSI。

UTF-16不兼容ASCII，不兼容C语言的字符串处理库函数（因为字节流里有\0），除了Windows爱用，其它系统都痛恨它。BOM和很多协议规范冲突，很多软件都抵制，也是只有Windows常用，而且将其列为正统（作反）。

综上，跨平台开发请使用UTF-8 without BOM，那是最通用的编码，是很多软件系统的默认编码，你在看的网页也用它。它特征明显，除了VC编译器和微软的各种软件外暂时没发现哪个软件会有认错的情况。它还有经过精心设计的容错机制，错一个字节最多只会错一个字符。请手动设置你的开发环境，将默认保存的编码设为UTF-8 without BOM，并将其它编码的文件转换过来，乱码就拜拜啦；记事本等不支持的编辑器，不要让他们摸你的文件。至于VC编译器硬要闹别扭就由它去吧。

写了这么多，到头来我也是晕乎乎的，希望大家有所理解。

o_w_olf

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
计算机编码

一、基础位 bit 最小的单元字节 byte 机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 二、ASCII码我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态
复制链接

扫一扫