13.4 指令集和编译

夏驰和徐策

于 2024-02-18 13:19:49 发布

阅读量936

点赞数 17

分类专栏：程序猿之编译原理文章标签：编译原理

本文链接：https://blog.csdn.net/tang7mj/article/details/136149765

版权

程序猿之编译原理专栏收录该内容

60 篇文章 3 订阅

订阅专栏

指令集和编译：将函数式编程转化为机器语言

在探索函数式编程的编译过程中，我们遇到了一个核心问题：如何将高级语言的表达式转换为低级机器指令。通过FAM（函数式抽象机）的指令集和一组编译函数，我们可以一步步地将SFP（简单函数式编程）语言的程序表达式编译成机器可执行的代码。

编译函数的作用

FAM利用四个主要的编译函数——P_code、B_code、V_code和C_code——来处理不同类型的表达式，并生成相应的指令序列。这些函数分别对应于程序（P）、基本（B）、值（V）和闭包（C）的编译上下文，每个函数都接收一个表达式、一个变量环境和一个栈标高（sl）作为参数。

表达式的编译过程

编译过程从P_code函数开始，适用于整个程序表达式的编译，其中假设表达式不包含任何自由变量，且栈标高初始为0。通过这种方式，编译器能够处理简单表达式，包括基本值、算术运算和条件表达式。

基值、运算和分支指令

FAM的指令集设计得非常细致，以支持各种基本操作：

ldb：装入基值到栈顶。
getbasic：从堆中装入基值到栈顶。
运算指令（如OPm和Ophin）：执行一元和二元运算。
分支指令（如false l和ujmp l）：根据条件进行跳转。

B_code函数负责生成执行基本运算和分支的指令序列，而V_code函数则处理那些需要将结果存放到堆中的情况。

条件表达式的特殊处理

在处理条件表达式时，条件部分（e1）使用B_code函数编译，以确保其结果（真或假）直接放在栈上，而结果表达式（e2和e3）则通过V_code函数编译，因为它们的结果需要存放到堆中。

结论

通过FAM的指令集和编译函数，我们可以看到函数式编程语言的表达式是如何被细致地转换成机器指令的。这个过程不仅体现了函数式编程的特点，如高阶函数和闭包，也展示了如何通过编译技术将这些高级抽象转化为底层的机器可执行代码。

变量的引用性出现：编译函数式编程中的变量访问

在函数式编程语言的编译过程中，变量的引用性出现是一个核心概念，它涉及到如何在代码中访问变量的值或其闭包。根据变量引用的上下文不同，编译器需要采用不同的策略来处理这些引用。

上下文为值（V）的变量引用

当变量在值的上下文中被引用时，编译器生成的代码必须能够访问该变量的值。如果该值尚未计算（即变量被绑定到一个闭包），则必须首先执行闭包以计算出这个值。在这种情况下，使用V_code函数处理变量引用，并通过getvar函数生成指令来访问变量的值或触发闭包的计算。

上下文为闭包（C）的变量引用

与值的上下文不同，当变量在闭包的上下文中被引用时，编译生成的代码需要直接访问变量的闭包而非其值。C_code函数在这种情况下被用来处理变量引用，同样通过getvar函数生成相应的指令。

`getvar`函数的内部机制

getvar函数是编译过程中的关键，它根据变量是局部变量、形式参数还是全局变量，生成不同的指令：

局部变量和形式参数：pushloc指令被生成来压入变量的值的指针到栈上。这个指令依赖于变量在运行时栈上的相对位置。
全局变量：pushglob指令被用来将全局变量的值的指针压入栈上。这需要运行时的全局指针（GP）指向一个包含所有全局变量指针的向量。

栈和全局变量的管理

编译器通过维护变量的环境和栈标高（sl）来确保变量引用的正确寻址。对于局部变量和形式参数，编译时的相对地址计算确保了运行时可以正确地通过栈访问它们。对于全局变量，编译时确定的下标和运行时的全局指针（GP）协同工作，使得全局变量的值可以被正确地访问。

结论

处理变量的引用性出现是函数式编程语言编译过程中的一个重要环节。它涉及到识别变量引用的上下文，并生成相应的指令来访问变量的值或闭包。这一过程不仅展示了函数式编程的灵活性，也体现了编译技术在支持高级编程概念中的关键作用。

函数定义的编译：构建FUNVAL对象与处理函数体

在函数式编程语言的编译过程中，函数定义的处理是核心环节之一。它不仅涉及到闭包的构造，还包括函数应用效率的优化。本文将探讨在SFP语言及其抽象机FAM中，函数定义是如何被编译的，特别是如何构造FUNVAL对象以及如何编译函数体。

构造FUNVAL对象

在编译函数定义时，生成的代码首先需要构造一个FUNVAL对象。这个对象包含三个关键成分：

函数代码的起始地址：指向函数体代码开始的位置。
空的变元指针向量：初始时为空，用于存放函数变元的值或闭包。
约束向量的指针：包含全局变量值的指针向量。

这些成分在函数定义点赋值，构成了FUNVAL对象的基础。

编译函数体

在构造FUNVAL对象的同时，编译过程也包括函数体的编译。这个过程涉及到以下几个步骤：

复制全局变量的值的指针：使用pushfree指令序列将全局变量的值的指针压入栈中。
跳过函数代码：使用ujmp指令跳过函数体代码，以避免在FUNVAL对象构造时执行函数体。
编译函数体：实际的函数体代码从标号L开始，直到return n结束，这部分是函数的实际执行代码。

全局变量的处理

全局变量在函数定义中的处理是通过静态分析得到的。使用freevar函数来确定函数体中的自由变量集合，并通过list函数构造这些变量的唯一成员表。pushfree指令序列基于这个列表，利用getvar指令为每个全局变量生成访问其值的指针的代码。

栈的布局与地址关系

编译函数体的开始，假设参数sl的值为0，这确保了在函数体代码开始执行前，栈的布局符合预期。通过为每个getvar指令增加sl的值，模拟了运行时栈指针（SP）的增加，保证了函数体内部的局部变量和形式参数可以被正确地寻址。

结论

通过FAM的编译过程，我们可以看到函数式编程中函数定义的编译是如何实现的，从构造FUNVAL对象到编译函数体，每一步都体现了函数式编程语言的特性和优化。这个过程不仅确保了函数应用的灵活性和效率，还深化了我们对闭包和作用域概念的理解。

函数应用的编译：构建栈帧与处理变元

在函数式编程中，函数应用的编译是一个涉及精确栈管理和变元处理的复杂过程。通过FAM（函数式抽象机）的指令集，我们可以看到如何为函数调用构建新的栈帧，以及如何确保函数执行时栈的布局与编译时假设的布局相匹配。

构建新的栈帧

函数应用的编译开始于mark指令，它为即将进行的函数调用建立一个新的栈帧。这个栈帧保存了继续地址（即函数执行完毕后应继续执行代码的地址）、当前的栈帧指针（FP）和全局指针（GP）的值。

接下来，编译器为每个变元（函数参数）在堆上建立闭包，并将这些闭包的指针压入栈中。这保证了在进入函数体执行时，所有必要的数据都已准备好并放置于正确的位置。

处理变元个数

函数应用可能面临变元数量不匹配的情况——变元不足或过多。FAM通过apply、targ和return指令来处理这些情况：

apply指令：跳转到函数体指令的起始点，并根据需要调整栈指针（SP），以便正确地访问所有变元。
targ指令：检查提供给函数的变元是否足够。如果不足，它将现有的变元组装成一个新的FUNVAL对象，并释放当前栈帧。
return指令：处理函数调用的结果。如果栈帧中的变元个数与函数所需的匹配，它将函数的返回值放置在适当的位置并释放栈帧；如果变元过多，它将函数的结果应用到剩余的变元上。