人类如何读懂计算机-CSDN博客

本文链接：https://blog.csdn.net/a13677972680/article/details/81264272

我在上一篇文章人人都能学编程中讲到，计算机是如何读懂人类的语言，今天我要讲的是人类如何读懂计算机语言。

想要读懂计算机，就需要把计算机输出的内容转化为我们人类所能理解的语言，然后显示在屏幕上。

我在人人都能学编程中说到过，计算机只能处理二进制数据，那么如果计算机处理完二进制直接输出到屏幕上人是看不懂的。那么也是需要一套翻译系统根据一套规则帮我们把二进制翻译成自然语言。

学过英语的都知道把英语翻译成汉语，其实就是根据语法规则和单词。那么其实计算机也是这样。

很久以前有一群聪明人他们决定用8个可以开合晶体管来组合成不同的状态，来表示人类所能理解的数字和符号，他们把这8个晶体管称为字节。

640 (1).jpg

再后来，他们又做了一些可以处理这些字节的机器，可以用晶体管组合出很多种状态，然后计算机的雏形就诞生了。

世界上第一台通用计算机“ENIAC”于1946年2月14日在美国宾夕法尼亚大学诞生。

第一台计算机是美国国防部用来计算弹道的，也就是说第一台计算机是美国用在军事上的。它非常大，用了18000个电子管，占地170平方米，重达30吨，耗电功率约150千瓦，每秒钟可进行5000次运算。

640 (2).jpg

为什么要用这么多电子管,因为电子管越多能处理的状态就越多，这样能处理的速度就越快。

用八位的二进制表示一个字节，一共可以组合出256(2的8次方)种不同的状态。

字节，它是计算机信息技术用于计量存储容量的一种计量单位，8位二进制数组合起来就有2的8次方种不同的状态，因为每一位二进制有2种状态0和1。

刚开始计算机把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机收到约定好的这些字节被传过来时，就要做一些约定的动作。

640 (3).jpg

如收到 0001 0000, 终端就换行，收到0000 0111, 计算机就向人们嘟嘟叫，收到0000 1001, 打印机就打印反白的字，或者计算机就用彩色显示字母。于是就规定把这些0010 0000以下的字节状态称为”控制码”。

然后把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。

640 (4).jpg

大家看到这样，都感觉很好，于是大家都把这个方案叫做ANSI的”Ascii”编码（美国信息互换标准代码）。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。

后来计算机发展越来越广泛，世界各国为了可以在计算机保存他们的文字，他们决定采用127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128到255这一页的字符集被称”扩展字符集”。

640 (5).jpg

这样的话所有的状态都被用完了。

等到中国人民开始使用计算机了，发现状态都被你们用完了，那我们如何来表示中文字符呢？况且有6000多个常用汉字需要保存呢。

聪明的中国人就想，靠你们来开发是不可能的了。

于是就自主研发，把那些127号之后的奇异符号们直接取消掉。规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字。

这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文都编进去了。

连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符（也就是占一个字节）了。

中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312″。GB2312是对ASCII的中文扩展。

640 (6).jpg

但是中国的汉字太多了，后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。

结果扩展之后的编码方案被称为GBK标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。后来少数民族也要用电脑了，于是我们再扩展，又加了几千个新的少数民族的字，GBK扩成了GB18030。

因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。

第一个发明汉字输入法的是王永民（王码键盘输入发明者）从此字登上了信息化的舞台。

640 (7).jpg

当时的中国人想让电脑显示汉字，就必须装上一个”汉字系统”，专门用来处理汉字的显示、输入的问题，装错了字符系统，显示就会乱码。

就在这时，一个叫ISO（国际标准化组织）的国际组织看不过去了，决定着手解决这个问题。

他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！

于是所有问题的解决了，也统一的各个国家的所有语言。

他们打算叫它”Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称“UNICODE”。

UNICODE 来到时，计算机网络刚好兴起，UNICODE如何在网络上传输也是一个必须考虑的问题。

于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF16就是每次16个位，只不过为了传输时的可靠性，从UNICODE到 UTF时并不是直接的对应，而是要过一些算法和规则来转换。

现在我们所使用的计算机基本上所有的操作系统都自带了UNICODE和UTF8等基本的字符集，可以随时切换。Windows XP、Windows7操作系统自带的都是GBK字符集（含2万余汉字）

这样的话操作系统就可以帮我们把计算机输出的二进制翻译成人类能读懂的文字了。

那么图片和视频又是如何翻译的呢？请观看后续文章

请关注我的微信公众号：理想的键盘，获取更多编程知识。

扫描二维码关注：

640 (8).jpg

总结一下计算机编码的发展历程：

● 第一台计算机诞生，美国国家标准学会制定了 ASCII 编码。基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符

●中国人民通过对 ASCII 编码的中文扩充改造，产生了 GB2312 编码，可以表示6000多个常用汉字。

●汉字实在是太多了，包括繁体和各种字符，于是产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。

●中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK编码扩充为 GB18030 编码。

●每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。

● 终于，有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 UNICODE ，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 UNICODE 编码就可以被其他电脑正常解释。

● UNICODE在网络传输中，出现了两个标准 UTF-8 和 UTF-16，分别每次传输 8个位和 16个位。