超级微小的编译器

最新推荐文章于 2023-07-25 14:38:14 发布

王绝天下-lnx

最新推荐文章于 2023-07-25 14:38:14 发布

阅读量194

点赞数

分类专栏：大前端文章标签：编译器

原文链接：https://github.com/YongzeYao/the-super-tiny-compiler-CN/blob/master/the-super-tiny-compiler.js

版权

大前端专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这篇博客介绍了如何构建一个简单的编译器，该编译器将LISP风格的函数调用转换为C语言的等效表达。编译器分为四个主要阶段：词法分析、语法分析、转换和代码生成。词法分析器将源代码分解为词素，语法分析器创建抽象语法树，转换器将此树转换为目标语言的表示，最后，代码生成器将转换后的树转化为可执行代码。整个过程通过一个200行左右的JavaScript实现，演示了现代编译器的基本原理。

摘要由CSDN通过智能技术生成

原项目地址：https://git.io/compiler

这是一个包含了所有现代编译器重要组成部分的超级简化编译器。使用简洁，易理解的 JavaScript 编写。

通读加了注释的代码能够帮助你学习大部分编译器是如何从头到尾工作的。

大概200行代码。

我们会将类似于LISP的函数调用编译成类似于C的函数调用。

如果你对这两个语言中的一个或者两个不熟悉。下面是一个快速的介绍。

如果我有两个函数`add`和`subtract`，它们会像下面这样被写出来：

                  LISP                      C

   2 + 2          (add 2 2)                 add(2, 2)
   4 - 2          (subtract 4 2)            subtract(4, 2)
   2 + (4 - 2)    (add 2 (subtract 4 2))    add(2, subtract(4, 2))

非常简单直观不是吗？

非常好，因为这就是我们要编译的代码。尽管这并不是一个完整的LISP或者C的编译器，但是它足够展示
现代编译器的很多大部分组成部件。

理论

大部分编译器的工作可以被分解为三个主要阶段：解析（Parsing），转化（Transformation）以及代码生成（Code Generation）。

解析将源代码转换为一个更抽象的形式
转换接受解析产生的抽象形式并且操纵这些抽象形式做任何编译器想让它们做的事。
代码生成 基于转换后的代码表现形式（code representation）生成目标代码。

解析

解析一般被分为两个部分：词法分析和语法分析。

1. 词法分析通过一个叫做tokenizer（词素生成器，也叫lexer）的工具将源代码分解成一个个词素。

词素是描述编程语言语法的对象。它可以描述数字，标识符，标点符号，运算符等等。

2. 语法分析接收词素并将它们组合成一个描述了源代码各部分之间关系的中间表达形式：抽象语法树。

抽象语法树是一个深度嵌套的对象，这个对象以一种既能够简单地操作又提供很多关于源代码信息的形式
来展现代码。

看下面的代码:

  (add 2 (subtract 4 2))

上面代码产生的词素会像下面这样：

 
  [
    { type: 'paren',  value: '('        },
    { type: 'name',   value: 'add'      },
    { type: 'number', value: '2'        },
    { type: 'paren',  value: '('        },
    { type: 'name',   value: 'subtract' },
    { type: 'number', value: '4'        },
    { type: 'number', value: '2'        },
    { type: 'paren',  value: ')'        },
    { type: 'paren',  value: ')'        },
  ]

而产生的抽象语法树会像下面这样：

 {
    type: 'Program',
    body: [{
      type: 'CallExpression',
      name: 'add',
      params: [{
        type: 'NumberLiteral',
        value: '2',
      }, {
        type: 'CallExpression',
        name: 'subtract',
        params: [{
          type: 'NumberLiteral',
          value: '4',
        }, {
          type: 'NumberLiteral',
          value: '2',
        }]
      }]
    }]
  }

转换

编译器的下一个阶段是转换阶段。再回顾一遍，这个过程接收解析生成的抽象语法树并对它做出改动。转换阶段可以改变抽象语法树使代码保持在同一个语言（例如Babel，Babel接收的是JS代码生成的也是JS代码），或者编译成另外一门语言。
让我们一起来看如何转换一个抽象语法树。
你可能会注意到我们的抽象语法树包含了长得非常相似的元素。观察那些含有type属性的元素。这些元素
被称为抽象语法树的节点。每一个节点都描述了源代码中的一部分。
针对NumberLiteral我们有一个节点：

 {
    type: 'NumberLiteral',
    value: '2',
 }

针对CallExpression我们也有一个节点：

  {
    type: 'CallExpression',
    name: 'subtract',
    params: [...nested nodes go here...],
  }

在转换抽象语法树的时候，我们可以通过添加删除替换节点属性来操纵节点。我们也可以添加节点，
删除节点，或者基于现有的抽象语法树创建一个全新的抽象语法树。
由于我们的编译目标是另外一门语言，所以我们集中注意力新建一个针对目标语言的全新抽象语法树。

遍历

为了处理节点，我们需要遍历它们。这个遍历的过程按照深度优先规则遍历每一个节点。

  {
    type: 'Program',
    body: [{
      type: 'CallExpression',
      name: 'add',
      params: [{
        type: 'NumberLiteral',
        value: '2'
      }, {
        type: 'CallExpression',
        name: 'subtract',
        params: [{
          type: 'NumberLiteral',
          value: '4'
        }, {
          type: 'NumberLiteral',
          value: '2'
        }]
      }]
    }]
  }

所以针对上面这个抽象语法树我们会按照下面步骤遍历节点：

Program - 从抽象语法树的最顶端开始
CallExpression (add) - 移动到Program的body属性中的第一个元素
NumberLiteral (2) - 移动到CallExpression的params中的第一个元素
CallExpression (subtract) - 移动到CallExpression的params中的第二个元素
NumberLiteral (4) - 移动到CallExpression的params中的第一个元素
NumberLiteral (2) - 移动到CallExpression的params中的第二个元素

如果我们直接操纵这个抽象语法树，而不是创建一个新的抽象语法树，那么我们就需要在这个步骤使用到
很多不同的抽象概念。然而为了满足我们的需求，在这一步我们仅仅需要访问抽象语法树中的每一个节点
即可。

The reason I use the word "visiting" is because there is this pattern of how
to represent operations on elements of an object structure.
在这里我使用“访问”这个词的原因是存在着下面这个用来表示一个对象结构中元素行为的模式。

访问者

基本的思想是我们会创建一个“访问者”对象，这个访问者对象有不同的方法来接受不同的节点类型。

  var visitor = {
    NumberLiteral() {},
    CallExpression() {},
  };

当我们遍历抽象语法树的时候，我们会根据现在“进入”的节点的类型调用访问者对象相对应的方法。为了使这个对象能够正常工作，我们需要传入当前节点以及当前节点的父节点的引用。

  var visitor = {
    NumberLiteral(node, parent) {},
    CallExpression(node, parent) {},
  };

然而，也存在着在“离开”节点的时候调用方法的可能性。假设我们有以下的抽象语法树结构：

  - Program
    - CallExpression
      - NumberLiteral
      - CallExpression
        - NumberLiteral
        - NumberLiteral

当我们向下遍历语法树的时候，我们会碰到所谓的叶子节点。我们在处理完一个节点后会“离开”这个节点。所以向下遍历树的时候我们“进入”节点，而向上返回的时候我们“离开”节点。

  -> Program (enter)
    -> CallExpression (enter)
      -> Number Literal (enter)
      <- Number Literal (exit)
      -> Call Expression (enter)
         -> Number Literal (enter)
         <- Number Literal (exit)
         -> Number Literal (enter)
         <- Number Literal (exit)
      <- CallExpression (exit)
    <- CallExpression (exit)
  <- Program (exit)

为了支持上面所讲的功能，我们的访问者对象的最终形态如下：

  var visitor = {
    NumberLiteral: {
      enter(node, parent) {},
      exit(node, parent) {},
    }
  };