关于编译器和解释器

最新推荐文章于 2025-03-19 05:00:00 发布

SnowBoyce

最新推荐文章于 2025-03-19 05:00:00 发布

阅读量2.6w

点赞数 80

分类专栏： learn theory 文章标签： compiler

learn theory 专栏收录该内容

1 篇文章

订阅专栏

什么是编译器

摘自 Wiki Compiler 一段

A compiler is a computer program (or a set of programs) that
transforms source code written in a programming language (the source
language) into another computer language (the target language), with
the latter often having a binary form known as object code. The most
common reason for converting source code is to create an executable
program.

大概意思：

编译器是一种计算机程序，负责把一种编程语言编写的源码转换成另外一种计算机代码，后者往往是以二进制的形式被称为目标代码(object code)。这个转换的过程通常的目的是生成可执行的程序。

编译器的产出是「另外一种代码」，然后这些代码等着被别人拿来执行，如果还不能直接被执行，那么还需要再编译或解释一遍，再交由计算机硬件执行。
编译器，往往是在「执行」之前完成，产出是一种可执行或需要再编译或者解释的「代码」。

什么是解释器

摘自 Wiki Interpreter 一段

In computer science, an interpreter is a computer program that
directly executes, i.e. performs, instructions written in a
programming or scripting language, without previously compiling them
into a machine language program. An interpreter generally uses one of
the following strategies for program execution:

parse the source code and perform its behavior directly. translate
source code into some efficient intermediate representation and
immediately execute this. explicitly execute stored precompiled code
made by a compiler which is part of the interpreter system.

大概意思：

在计算机科学中，解释器是一种计算机程序，它直接执行由编程语言或脚本语言编写的代码，并不会把源代码预编译成机器码。一个解释器，通常会用以下的姿势来执行程序代码：

分析源代码，并且直接执行。
把源代码翻译成相对更加高效率的中间码，然后立即执行它。
执行由解释器内部的编译器预编译后保存的代码
可以把解释器看成一个黑盒子，我们输入源码，它就会实时返回结果。
不同类型的解释器，黑盒子里面的构造不一样，有些还会集成编译器，缓存编译结果，用来提高执行效率（例如 Chrome V8 也是这么做的）。
解释器通常是工作在「运行时」，并且对于我们输入的源码，是一行一行的解释然后执行，然后返回结果。

分两个维度比较一下

表现 Behavior

编译器把源代码转换成其他的更低级的代码(例如二进制码、机器码)，但是不会执行它。
解释器会读取源代码，并且直接生成指令让计算机硬件执行，不会输出另外一种代码。

性能 Performance

编译器会事先用比较多的时间把整个程序的源代码编译成另外一种代码，后者往往较前者更加接近机器码，所以执行的效率会更加高。时间是消耗在预编译的过程中。
解释器会一行一行的读取源代码，解释，然后立即执行。这中间往往使用相对简单的词法分析、语法分析，压缩解释的时间，最后生成机器码，交由硬件执行。解释器适合比较低级的语言。但是相对于预编译好的代码，效率往往会更低。如何减少解释的次数和复杂性，是提高解释器效率的难题。

关于代码，需要知道的几个概念

高级语言代码 High-Level Code

高级语言代码，自然是指由高级编程语言编写代码，对计算机的细节有更高层次的抽象。
相对于低级编程语言（low-level programming language）更接近自然语言（人类的语言）。
集成一系列的自动工具（垃圾回收，内存管理等），会让程序员延长寿命，更快乐的编写出更简洁，更易读的程序代码。

低级语言代码 Low-Level Code

低级语言代码，指由低级编程语言编写的代码，相对高级语言，少了更多的抽象概念，更加接近于汇编或者机器指令。
但是这也意味着代码的可移植性很差。

在我看来，高与低，只是一组相对词而已。
越高级的语言，性能、自由度越不及低级语言。
但是在抽象、可读可写性、可移植性越比低级语言优秀。
在以前的年代，C/C++语言相对汇编语言，机器指令来说，肯定是高级语言。
而到了今天，我们更多人对C语言偏向认知为「低级语言」。

汇编语言 Assembly Language

汇编语言作为一门低级语言，对应于计算机或者其他可编程的硬件。
它和计算机的体系结构以及机器指令是强关联的。
换句话说，就是不同的汇编语言代码对应特定的硬件，所以不用谈可移植性了。
相对于需要编译和解释的高级语言代码来说，汇编代码只需要翻译成机器码就可以执行了。
所以汇编语言也往往被称作象征性机器码(symbolic machine code)

字节码 Byte Code

字节码严格来说不算是编程语言，而是高级编程语言为了种种需求（可移植性、可传输性、预编译等）而产生的中间码（Intermediate Code）。
它是由一堆指令集组成的代码，例如在javac编译过后的java源码产生的就是字节码。
源码在编译的过程中，是需要进行「词法分析 → 语法分析 → 生成目标代码」等过程的，在预编译的过程中，就完成这部分工作，生成字节码。
然后在后面交由解释器（这里通常指编程语言的虚拟机）解释执行，省去前面预编译的开销。

机器码 Machine Code

机器码是一组可以直接被CPU执行的指令集，
每一条指令都代表一个特定的任务，或者是加载，或者是跳转，亦或是计算操作等等。
所有可以直接被CPU执行的程序，都是由这么一系列的指令组成的。
机器码可是看作是编译过程中，最低级的代码，因外再往下就是交由硬件来执行了。
当然机器码也是可以被编辑的，但是以人类难以看懂的姿势存在，可读性非常差。

从熟悉的编程语言的角度来看看
这里写图片描述
从左往右看，

以 Java 为例，我们在文本编译器写好了 Java 代码，交由「编译器」编译成 Java Bytecode。然后 Bytecode 交由 JVM 来执行，这时候 JVM 充当了「解释器」的角色，在解释 Bytecode 成 Machine Code 的同时执行它，返回结果。
以 BASIC 语言（早期的可以由计算机直译的语言）为例，通过文本编译器编写好，不用经历「编译」的过程，就可以直接交由操作系统内部来进行「解释」然后执行。
以 C 语言为例，我们在文本编译器编写好源代码，然后运行 gcc hello.c 编译出 hello.out 文件，该文件由一系列的机器指令组成的机器码，可以直接交由硬件来执行。