深入计算机组成原理（五）计算机指令：让我们试试用纸带编程

最新推荐文章于 2025-04-08 15:54:06 发布

小问号阿

最新推荐文章于 2025-04-08 15:54:06 发布

阅读量2.6k

点赞数 6

分类专栏：计算机组成原理笔记文章标签：计算机组成原理

笔记同时被 2 个专栏收录

38 篇文章

订阅专栏

计算机组成原理

27 篇文章

订阅专栏

你在学写程序的时候，有没有想过，古老时代的计算机程序是怎么写出来的？

其实在当年，不想现在这样，都是用一种古老的物理设备，叫做“打孔卡”（Punched Card）。用这种设备写程序，可没法像现在这样，掏出键盘就能打字，而是要先在脑海里或者在纸上写出程序，然后在纸带或者卡片上打洞。这样，要写的程序，要处理的数据，就变成一条条纸带或者卡片，之后再交给当时的计算机去处理。

在这里插入图片描述

你看这个穿孔纸带是不是有点像我们现在考试用的答题卡？那个时候，人们在特定的位置打洞或者不打洞，来代表“0”和“1”.

为什么早期的计算机程序要使用打孔卡，而不能像我们现在一样，用C或者Python这样的高级语言来写呢？原因很简单，因为计算机或者说CPU本身，并没有能力理解这些高级语言，即使在2019年的今天，我们使用的现代个人计算机也是只能处理所谓的“机器码”，也就是一连串“0”和“1”这样的数字/

那么，我们每天用高级语言的程序，最终是怎么变成一串串“0”和“1“的？这一串串”0“和”1“又是怎么在CPU中处理的？今天，我们就来仔细介绍一下，”机器码“和”计算机指令“到底是怎么回事。

在软硬件接口中，CPU帮我们做了什么事？

我们常说，CPU就是计算机的大脑。CPU的全程是Central Processing Unit，中文是中央处理器。

我们上一节说了，从硬件的角度来看，CPU就是一个超大规模集成电路，通过电路实现了加法、乘法乃至各种各样的处理逻辑。

如果我们从软件工程师的角度来看，CPU就是一个执行各种计算机指令（Instruction Code）的逻辑机器。这里的计算机指令，就好比一门CPU能够听懂的语言，我们也可以把它叫做机器语言（Machine Language）。

不同的CPU能够听懂的语言不太一样。比如，我们个人电脑用的是Intel的CPU，苹果手机用的是ARM的CPU。两者能够听懂的语言就不太一样。类似这两种CPU各自支持的语言，就是两组不同的计算机指令集（Instruction Set）。这里面的”Set“，其实就是数学上的集合，代表不同的单词、语法。

所以，如果我们在自己电脑上写一个程序，然后把这个程序复制一下，装到自己的手机上，肯定是没办法正常运行的，因为这两者的语言不通。而在一台电脑上的程序，简单复制一下到另外一台电脑，通常就能正常运行，因为这两台CPU有着同样的指令集，也就是说，它们的语言是相通的。

一个计算机程序，不可能只有一条指令，而是由成千上万条指令组成的。但是CPU里不能一直放着所有指令，所以计算机程序平时是存储在存储器中的。这种程序指令存储在存储器里面的计算机，我们就叫做存储程序计算机（Stored-program Computer），

说到这里，你可能要问了，难道还有不是存储程序型的计算机吗？其实，在没有现代计算机之前，有着聪明才智的工程师们，早就发明了一种叫Plugboard Computer的计算设备。我把它直译为”插线板计算机“。在一个布满了各种插口和插座的板子上，工程师用不同的电线来链接不同的插口和插座，从而来完成各种计算任务。下面这个图就是一台IBM的Plugboard，看起来是不是有一股满满的蒸汽朋克范儿？

在这里插入图片描述

从编译到汇编，代码怎么变成机器码？

了解了计算机指令和计算机指令集，接下来我们来看看，平时编写的代码，到底是怎么变成一条条计算机指令，最后被CPU执行的呢？我们拿一小段真实的C语言程序来看看。

// test.c
int main()
{
  int a = 1; 
  int b = 2;
  a = a + b;
}

这是一段再简单不过的C语言程序，即便你不了解C语言，应该也可以看懂。我们给两个变量a、b分别赋值1、2，然后再将a、b两个变量中的值加在一起，重新赋值给了a整个变量。

要让这段程序在一个Linux系统上跑起来，我们需要把整个程序翻译成一个汇编语言（ASM，Assembly Language）的程序，这个过程我们一般叫做编译（Compile）成汇编代码。

针对汇编代码，我们可以再用汇编器（Assembler）翻译成机器码（Machine Code）。这些机器码由”0“和”1“组成的机器语言表示。着一条条机器码，就是一条条的计算机指令。这样一串串的16进制数字，就是我们CPU能够真正认识的计算机指令。

在一个Linux系统上，我们可以简单地使用gcc和objdump这样两条命令，把对应的汇编代码和机器码都打印出来。

gcc -g -c test.c
$ objdump -d -M intel -S test.o

可以看到，左侧有一堆数字，这些就是一条条机器码；右边有一系列的push、mov、add、pop
等，这些就是对应的汇编代码。一行C语言代码，有时候只对应一条机器码和汇编代码，有时候则是对应两条机器码和汇编代码。汇编代码和机器码之间是一一对应的。

test.o:     file format elf64-x86-64
Disassembly of section .text:
0000000000000000 <main>:
int main()
{
   0:   55                      push   rbp
   1:   48 89 e5                mov    rbp,rsp
  int a = 1; 
   4:   c7 45 fc 01 00 00 00    mov    DWORD PTR [rbp-0x4],0x1
  int b = 2;
   b:   c7 45 f8 02 00 00 00    mov    DWORD PTR [rbp-0x8],0x2
  a = a + b;
  12:   8b 45 f8                mov    eax,DWORD PTR [rbp-0x8]
  15:   01 45 fc                add    DWORD PTR [rbp-0x4],eax
}
  18:   5d                      pop    rbp
  19:   c3                      ret

这个时候你可能又要问了，我们实际在用GCC（GUC编译器套装，GUI Compiler Collection）编译器的时候，可以直接把代码编译成机器码呀，为什么还需要汇编代码呢？原因很简单，你看着那一串数字表示的机器码，是不是摸不着头脑？但是即使你没有学过汇编代码，看的时候多少也能”猜“出一些这些代码的含义。

因为汇编代码其实就是”给程序员看的机器码“，也正因为这样，机器码和汇编代码是一一对应的。我们人类很容易记住add、moc这些用英文表示的指令，而8b 45 f8这样的指令，由于很难一下子看明白是在干什么，所以会非常难以记忆。尽管早年互联网上到处流传，大神程序员拿小刀在光盘上刻出操作系统的梗，但是要让你用打孔卡来写哥程序，估计浪费的卡片比用上的卡片要多得多。

在这里插入图片描述