语法制导翻译和中间代码生成

最新推荐文章于 2023-07-12 17:26:02 发布

连理o

最新推荐文章于 2023-07-12 17:26:02 发布

阅读量2k

点赞数 6

分类专栏：编译原理

本文链接：https://blog.csdn.net/weixin_42437114/article/details/110916173

版权

编译原理专栏收录该内容

11 篇文章

订阅专栏

本文参考《编译原理(第三版)》

语义分析概述
- 语义分析任务
- 语法制导翻译
属性文法
$S$ 属性文法的自下而上翻译
$L$ 属性文法的自上而下翻译
- ** $L$ 属性文法翻译的实现——递归下降翻译
中间代码的形式
简单赋值语句的翻译
- 语义动作描述
- 类型转换
布尔表达式的翻译
- 拉链回填
- 文法定义
控制结构的翻译
声明语句的翻译

语义分析概述

编程语言的语法和语义之间并没有明确界限，语义可完成 CFG 无法描述的特性
- 如: 标识符先声明后引用的语法规定，可用简单的抽象语言说明： $L=\{WcW|W∈(a|b)^*\}$ ，这不是一个上下文无关语言，无法用前面章节介绍的语法分析方法来处理
- 再如： $L=\{a^nb^mc^nd^m|n≥0，m≥0\}$ ，它是检查过程声明的形参个数和过程引用的实参个数应该一致的问题的抽象。 $a^n$ 和 $b^m$ 代表两个过程声明的形参表中分别有 $n$ 和 $m$ 个参数； $c^n$ 和 $d^m$ 代表两个过程调用的实参表；实参和形参个数的一致性检查也是放在语义分析阶段完成

语义分析任务

静态检查—语义检查。主要进行一致性检查和越界检查，能在程序运行之前发现编程错误
- 上下文相关性
  - 例如：任何作用域内同一个标识符最多只能声明一次；一个 $b r e a k$ 语句必须处于一个循环或 $s w i t c h$ 语句之内；赋值表达式的左部表示的是一个左值…
- 类型检查
  - 例如：自动类型转换 (在语法树中插入一个运算符来表示这个转换)
如果静态语义正确，执行真正的翻译（翻译成中间代码或直接生成实际目标代码）—语义处理
- 说明语句：将其中定义的名字及属性记录在符号表中，以便进行存储分配
- 执行语句：生成语义上等价的中间代码

语法制导翻译

语法制导翻译（syntax-directed translation）是目前大多数编译程序采用的一种技术

语法制导翻译

在语法分析中，根据每个产生式所对应的语义子程序（语义规则描述的动作）进行翻译的方法称为语法制导翻译；其基本思想是：将语言结构的语义以属性的形式赋予代表此结构的文法符号。在语法分析推导或归约的每一步中，通过语义规则完成对属性的计算，以实现语义处理
在描述语义动作时，需要赋予每个文法符号 $X$ (非终极符和终极符)不同的属性值。属性可以是类型、地址、值、符号表内容等，用记号 $X . t y p e$ , $X . v a l$ 等表示
- 综合属性
  - 一个结点的综合属性值是从其子结点的综合属性值“计算”得来的，可通过自底向上进行求值，用 $↑$ 表示
- 继承属性
  - 继承属性则是由语法树中该结点的父结点和位于其左边的兄弟结点的属性值“计算”出来的，继承属性用于自上而下传递信息
非终结符既可有综合属性也可有继承属性，但文法开始符号没有继承属性。终结符只有综合属性，它们由词法分析程序提供

注释分析树

将每个结点都带有属性值的语法分析树称为注释分析树
计算结点属性值的相关活动称为注释或装饰语法树

语法制导定义

在一个语法制导定义中， $\forall A→\alpha \in P$ , 都有与之相关联的一套语义规则，每条规则的形式为
$b:= f (c_1, c_2, …, c_k)$
- $f$ 是一个函数，满足：
  - $b$ 是 $A$ 的一个综合属性并且 $c_1, c_2, …, c_k$ 是产生式右边 $\alpha$ 中的文法符号的属性
  - $b$ 是产生式右部 $\alpha$ 中的某个符号的一个继承属性，并且 $c_1, c_2, …, c_k$ 是 $A$ 或 $\alpha$ 中的任何文法符号的属性

例：表达式求值的语法制导定义
在这里插入图片描述

例：表达类型定义的语法制导定义（ $L . i n$ 为继承属性）
在这里插入图片描述

$i d . e n t r y$ 表示 $i d$ 在符号表中的地址
$a d d t y p e$ 将 $L . i n$ 存入 $i d$ 的符号表中
一个产生式中同一符号多次出现，用上角标来区分
- 例如， $E\rightarrow E+E$ 表示为 $E\rightarrow E^{(1)} +E^{(2)}$
每个产生式的语义动作，写在该产生式之后的花括号内

属性文法

翻译文法
- 在语法制导翻译中，我们可以用一个或多个子程序（称为语义动作）来完成产生式的语义分析，并把这些语义动作插入到产生式中相应位置，从而形成翻译文法。当在语法分析过程中使用该产生式时，就可以在适当的时机调用这些动作，完成所需要的翻译
属性文法
- 属性文法是在上下文无关文法的基础上，为每个文法符号（ $V_T$ 或 $V_N$ ）配备若干属性；再根据产生式所包含的语义，给出符号间属性的求值规则，从而形成所谓的属性翻译文法，即属性文法
  - 这样，当在语法分析中使用该产生式时，可根据属性求值规则对相应属性进行求值，从而完成翻译
  - 当翻译文法的符号具有属性，并带有属性求值规则时，就称为属性文法
- 因此，属性文法是一个三元组： $A = (G, V, F)$ , 其中：
  - $G$ ：是一个上下文无关文法
  - $V$ ：有穷的属性集，每个属性与文法的一个终结符或非终结符相连
  - $F$ ：关于属性的断言或一组属性的计算规则(称为语义规则)。断言或语义规则与一个产生式相联，只引用该产生式左端或右端的终结符或非终结符相关的属性

例
表达式文法 $E\rightarrow T+T|T \ \ \ T\rightarrow n|b$ ；有关类型匹配的属性文法如下：
在这里插入图片描述

综合属性

综合属性求值规则：
- 对终结符号其综合属性具有指定的初始值。在具体实现中，该初始值将由词法分析程序提供
- 产生式右部的非终结符号的综合属性值，取自后面以该非终结符号为产生式左部时求得的综合属性值
- 产生式左部的非终结符号的综合属性值，由产生式中左部或右部的某些符号的属性值进行计算
- 给定一动作符号，其综合属性值将用该动作符号的其它属性值进行计算

例
一种能够完成输出表达式值的符号串翻译文法如下，右列为相应产生式的属性求值规则
$\begin{aligned}① S&→E_{↑q}@ANSWER_{↓r}\ \ \ \ \ \ \ \ r=q\\ ② E_{↑p}&→E_{↑q}+T_{↑r}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q+r\\ ③ E_{↑p}&→T_{↑q}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q\\ ④ T_{↑p}&→T_{↑q}*F_{↑r}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q*r\\ ⑤ T_{↑p}&→F_{↑q}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q\\ ⑥ F_{↑p}&→(E_{↑q})\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q\\ ⑦ F_{↑p}&→NUM_{↑q}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ p=q\end{aligned}$

动作符号 @ $A N S W E R$ 的动作是输出表达式的计算结果
下面给出 $NUM_{↑3}+ NUM_{↑2}* NUM_{↑3}$ 的分析树
- $NUM_{↑3}$ 表示 $N U M$ 有一个综合属性 $3$ 代表它的数值， $3$ 是在词法分析阶段求出来的

继承属性

继承属性的求值规则：
- 对产生式左部的非终结符，其继承属性继承前面产生式中该符号已有的继承属性值
- 对产生式右部的符号，其继承属性由产生式中其它符号属性值进行计算

例
$S→E_{↑q}@ANSWER_{↓r} ， r=q$

其中动作符号 @ $A N S W E R$ 的属性来源于左边非终结符号 $E$ 的属性，我们用一个向下的箭头表示该动作符号的属性值，这就是继承属性的一个例子

例
考虑下列声明语句文法
$<声明语句>→TYPE\ \ \ ID <变量表>;\\ ② <变量表>→，ID <变量表>\\ ③ <变量表>→ε$

假设每个变量具有类型和值两个属性
词法分析程序处理 $INT\ V;$ 后返回的单词属性字：
$\ \ \ \ int),(ID \ \ \ \ V),(;)$
语法分析程序在处理声明语句 $INT\ V;$ 时，假定调用 $SET\_TYPE$ 过程。该过程根据 $T Y P E$ 的属性确定变量的类型，并将类型与词法分析程序得到的变量名 ( $i d . n a m e$ ) 一同插入到符号表中
翻译文法如下：
$① <声明语句>→TYPE\ \ \ ID @SET\_TYPE <变量表>;\\ ② <变量表>→，ID@SET\_TYPE <变量表>\\ ③ <变量表>→ε$
- 从文法上看，动作符号 $SET\_TYPE$ 有两个属性: $SET\_TYPE_{↓变量名，类型}$
用属性变量表示符号的属性，对第1个产生式， $T Y P E$ 和 $I D$ 的属性值可由词法分析程序的返回值得到。定义属性文法如下：
$① <声明语句>→TYPE_{↑t} ID_{↑n} @SET\_TYPE_{↓n_1,t_1} <变量表↓_{t_2} >； \\②<变量表_{↓t}>→，ID_{↑n} @SET\_TYPE_{↓n_1,t_1}<变量表_{↓t_2}>$ 属性求值规则均为：
$t_2=t，t_1=t ，n_1=n$

例
如果输入符号串为 $int\ a, b;$

词法分析后输出为：
$\ \ \ \ int),(ID \ \ \ \ a),(,),(ID \ \ \ \ b),(;)$
语法分析要分析的输入串是： $TYPE\ ID ，ID ；$
- 带有属性的输入串是： $TYPE_{↑int} ID_{↑a} ,ID_{↑b} ；$
- 语法树如下图

属性文法举例—算术表达式的翻译

假定一个属性翻译文法的输出是四元式代码。要求翻译程序产生的四元式具有下面的性质：每个双目运算都用一个四元式表示
- 一组四元式的排列顺序与执行时要完成的运算顺序相同。
- 每个四元式有三个参数，自左向右的顺序为：左操作数，右操作数，运算结果
- 例如：翻译器处理表达式 $a + a * b$ ，经词法分析后应为 $ID_{↑a}+ID_{↑a} * ID_{↑b}$ ，将生成如下的四元式
  $a , b , t_1 )\\( +, a , t_1 , t_2)$ 其中 $t_1,t_2$ 是临时变量，保存表达式的结果

第 1 步，构造表达式的翻译文法如下：
$\begin{aligned}E&→E+T@ADD \\ E&→T\\ T&→T*F@MULT\\ T&→F\\ F&→(E)\\ F&→ID\end{aligned}$
- $@ A D D$ 代表产生加法运算的四元式
- $@ M U L T$ 代表产生乘法运算的四元式
第 2 步：构造属性和求值规则，把翻译文法构造成属性翻译文法
- 令每个非终结符有一个综合属性，该属性为一个临时变量，保存由它产生的表达式的结果
- 输入符号 $I D$ 有一个综合属性，它是该符号的变量名
- 每个动作符号有三个继承属性，它们分别指向左操作数、右操作数和运算结果
  $\begin{aligned}E_{↑x} &→E_{↑q} +T_{↑r} @ADD_{↓y,z,t}\ \ y=q, z=r, t=NEWT，x=t \\ E_{↑x} &→T_{↑p} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x=p\\ T_{↑x}&→T_{↑q} *F_{↑r} @MULT_{↓y,z,t}\ \ y=q, z=r, t=NEWT，x=t\\ T_{↑x}&→F_{↑p}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x=p\\ F_{↑x}&→(E_{↑p})\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x=p\\ F_{↑x}&→ID_{↑p}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x=p\end{aligned}$
  - 其中， $N E W T$ 是一个函数，每次调用它时返回一个新的临时变量名，临时变量名按产生顺序分别为 $t_1、t_2、…$
  - 动作符号 $ADD_{↓y,z,t}$ 输出 $(+, y, z, t)$
  - 动作符号 $MULT_{↓y,z,t}$ 输出 $(*, y, z, t)$

$S$ 属性文法的自下而上翻译

针对任意一个语法制导定义的翻译器可能很难实现，但是有一大类的语法制导定义的翻译器很容易建立
首先，我们考虑这样一类语法制导定义： $S$ 属性定义，它的文法符号仅含综合属性
- 综合属性可以在分析输入串的同时由自下而上的语法分析器来计算，这种语法分析器可以将文法符号的综合属性值保存在栈中，每当进行归约时，新的综合属性值就由栈中正在归约的产生式右部符号的属性值来计算
- $S$ 属性定义的翻译器可以借助 LR 语法分析器及生成器来实现。在自下而上的分析中，我们在原状态栈、文法符号栈的基础上增加一个属性栈，用来存放综合属性值，它保存已经分析过的子树的信息；这样，LR 分析器不仅执行语法分析任务，且在归约同时完成上例属性文法描述的语义动作

例
如下的算术表达式的属性文法定义是 $S$ 属性文法
$\begin{aligned}① S&→E_{↑x}\\ ② E_{↑x}&→E_{↑q}+T_{↑r}@ADD_{↓q,r,x}\ \ \ \ \ \ \ \ \ \ \ \ \ \ x=NWEV\\ ③ E_{↑x}&→T_{↑x}\\ ④ T_{↑x}&→T_{↑q}*F_{↑r}@MULT_{↓q,r,x}\ \ \ \ \ \ \ \ \ \ \ \ \ \ x=NWEV\\ ⑤ T_{↑x}&→F_{↑x}\\ ⑥ F_{↑x}&→(E_{↑x})\\ ⑦ F_{↑x}&→i_{↑x}\end{aligned}$

给定一个 $S$ 属性翻译文法，如何构造翻译器？

我们将 $S$ 属性翻译文法中的属性和动作符号去掉，形成输入文法。为输入文法构造 LR 分析表
确定文法中每个符号的栈符号，并扩充该分析表的移进和归约动作，即可完成 $S$ 属性翻译文法翻译器的构造
- $S$ 属性翻译文法的翻译器中，每个栈符号由名字部分和属性域组成。栈中任何符号的域都是一些存贮单元，当该符号在栈内时，这些域用于保存该符号的属性信息
- 为了实现自底向上的属性文法的翻译，还需要对相应分析器的移进和归约动作做适当的扩充
  - 移进动作的扩充方案：把当前输入符号的属性放在移进操作压入的那个栈符号的相应属性域中
  - 归约动作的扩充方案：当选用产生式 $p$ 进行归约操作时，使用符号栈顶要归约的产生式右部符号的属性来计算与该产生式有关的所有动作符号以及左部非终结符号的所有属性
    - 使用这些动作符号属性来产生所需要的输出或完成有关的动作
    - 使用左部非终结符属性来填写表示左部非终结符的属性域，同时归约操作把这左部非终结符压入栈中

$L$ 属性文法的自上而下翻译

属性文法由翻译文法和有关的属性计算规则组成。如果属性计算规则给的不当，就不能保证所有的属性计算出来
$L$ 属性文法 保证可以按照自顶向下的有序方式来计算属性值，即按照自顶向下的有序方式对某个属性求值时，所需要的基本值已知
$L$ 属性文法定义：
- 一个语法制导定义是 $L$ 属性定义，如果对于属性文法 $A G$ 中的任一产生式 $A→X_1X_2…X_i…. X_n$ , 其每个语义规则中的每一个属性都是一个综合属性，或是 $X_i$ （ $1 \leq i \leq n$ ）的一个继承属性，这一继承属性只依赖于 $A$ 的继承属性和 $X_i$ 的左边符号 $X_1,X_2,…,X_{i-1}$ 的属性

$L$ 属性中的 $L$ 表示 $l e f t$

$L$ 属性文法满足如下的条件：
- $X_i$ 的继承属性只依赖于 $A$ 的继承属性和 $X_i$ 的左边符号 $X_1,X_2,…,X_{i-1}$ 的属性
- 该条件有利于自顶向下地对属性求值。因为每个符号都是在它右边的输入符号读入之前进行处理
$A$ 的综合属性只依赖于 $A$ 的继承属性和产生式右部符号的属性
- 该条件保证在求值过程中避免出现循环依赖性

例：
$声明语句>→TYPE_{↑t} ID_{↑n} @SET\_TYPE_{↓n_1,t_1} <变量表↓_{t_2} >;$ 属性求值规则： $t_2=t，t_1=t ，n_1=n$

** $L$ 属性文法翻译的实现——递归下降翻译

可采用递归下降法，完成 $L$ 属性文法的翻译。步骤如下：

若该非终结符具有属性，那么该非终结符的分析过程就有形参，且形参的数目就是该非终结符的属性个数
对于继承属性，采用值形参的传参方式将继承属性值传入被调过程
对于综合属性，采用变量形参的传参方式以便将值回传给主调过程 (指针 / 引用)

为了进行属性翻译的程序设计，我们采用下述约定：

可以把属性产生式中的属性名字用作变量和参数的名字。这样可以将属性的命名和递归下降过程的实现联系起来
所有出现在左部的同名非终结符，应具有相同的属性名表。在左部同名非终结符属性名表的同一化过程中，属性名称的改动范围仅局限于产生式左部。为了保证一致性，左部属性重新命名以后，可使用新的记法约定来简化或删去某些属性求值规则
如果两个属性有相同的值，那么可给它们相同的名字，但对于左部符号的属性值相等时，不能改变成相同的名字

例

产生式 $L_{↑a↓b}→e_{↓i} R_{↓j} ， i, j = b, a = i+2\\ L_{↑x↓y}→H_{↑z↓w}， w = y, z = 2, x = z+y$ 按约定第②条，必须改成
$L_{↑a↓b}→e_{↓i} R_{↓j} ， i, j = b, a = i+2\\ L_{↑\boldsymbol{a}↓\boldsymbol{b}}→H_{↑z↓w}， w = \boldsymbol{b}, z = 2, x = z+\boldsymbol{b}$
对规则 $S→A_{↑a} B_{↓b} C_{↓c}$ ,当 $b, c = a$ 时，可写成 $S→A_{↑a} B_{↓a} C_{↓a}$
对规则 $L_{↑a} →A_{↓b} @f_{↓c}$ ,当 $a = b, c = b$ 时，可写成 $L_{↑a} →A_{↓a} @f_{↓a}$
对规则 $L_{↓a↑b} →aB_{↓c}C_{↓d}$ ,当 $c, d = a$ 时，可写成 $L_{↓a↑b} →aB_{↓a}C_{↓a}$ ，但当 $b = a$ 时，不能写成 $L_{↓a↑a} →aB_{↓a}C_{↓a}$
- 这是因为左部非终结符号的属性将作为该非终结符号分析过程的形参，而一个过程的形参不能重名，如过程 $L(int\ a, int\ b)$ 不可写成 $L(int\ a,int\ a)$

中间代码的形式

逆波兰表示法

逆波兰表示法 (后缀式) 的递归定义：
- 如果 $E$ 是一个变量或常量，则 $E$ 的后缀表示是 $E$ 本身
- 如果 $E$ 是一个形如 $E_1\ op\ E_2$ 的表达式，其中 $o p$ 是一个二目运算符，那么 $E$ 的后缀表示是 $E_1'\ E_2'\ op$ , 这里 $E_1'$ 和 $E_2'$ 分别是 $E_1$ 和 $E_2$ 的后缀表示
- 如果 $E$ 是一个形如 $E_1)$ 的被括号括起来的表达式，则 $E$ 的后缀表示就是 $E_1$ 的后缀表示
表达式的逆波兰式表示的实质：
- 操作数出现的顺序与原来顺序一致，而运算符则按运算的先后顺序放在相应的操作数之后(又称后缀表示)。这种表示不需要用括号来规定运算的顺序
- 易于计算机处理表达式，特别适用于解释执行的程序设计语言的中间表示，也方便具有堆栈体系的计算机的目标代码生成
扩充逆波兰式
- 赋值表达式： $< 变量 > : = < 表达式 >$ ；逆波兰式表示： $< 变量 > < 表达式 > : =$
- $x = - a + b$ ；逆波兰式表示： $x a @ b + =$ (@代表取负运算)
- $goto\ L_1$ ；逆波兰式表示： $L_1\ JP$ (JP是单目运算符)
- 若用 $?$ 表示 $i f$ - $t h e n$ - $e l s e$ , 则
  $If\ a\ then\ if\ c-d\ then\ a+c\ else\ a*c\ else\ a+b$ 逆波兰式表示：
  $a c d - a c + a c * ? a b + ?$
  - 然而，这种 $i f$ - $t h e n$ - $e l s e$ 运算符的实现 $e x y ?$ ，要求在任何情况下都要把 $x ， y$ 都计算出来，没有短路求值的特性。而且，如果运算量无定义或者有副作用，则后缀表示法不仅无效，而且可能是错误的
  - 解决方案：
    - 引入标号，在后缀式中加入条件转移，无条件转移算符
    - 存储方式：后缀式存放在一维数组 $P O S T [1 . . N]$ 中，每个元素是运算符或者分量（指向符号表）
    - $p\ jump$ ：转到 $P O S T [p]$
    - $e_1e_2p\ jlt$ ： $e_1<e_2$ 时，转到 $P O S T [p]$
    - $ep\ jez$ ：若 $e = 0$ ，转到 $P O S T [p]$
    - $If\ e\ then\ x\ else\ y$ 的逆波兰式表示: $ep_1\ jez\ xp_2\ jump\ p_1:y$
产生式所带的语义动作，由以下模式描述：
- $E→E^{(1)}op E^{(2)}\ \ \ \ \ \ \{ E.CODE:= E^{(1)}.CODE || E^{(2)}.CODE||op \}/ \{print\ op\}$
- ${ } E→(E^{(1)})\ \ \ \ \ \ \{ E.CODE := E^{(1)}.CODE\} / \{\}$
- $E→id\ \ \ \ \ \ \{ E.CODE := id\} / \{print\ id\}$

三元式

三元式的构成： $OP\ OP_1\ OP_2$
- $OP_1$ 和 $OP_2$ 都是指示器，指向符号表的某项（符号表入口），或者三元式表自身的某项
- $O P$ 为运算符，通常用整数编码
- 三元式含有对中间结果的显示引用（计算结果与所加编号联系）
产生式所带的语义动作，由以下模式描述
- $E→E^{(1)}\ op\ E^{(2)}\ \ \ \ \{E.VAL:= TRIP(op,E^{(1)}.VAL,E^{(2)}.VAL\}$
- $E→(E^{(1)})\ \ \ \ \{E.VAL:= E^{(1)}.VAL\}$
- $E→-E^{(1)}\ \ \ \ \{E.VAL:= TRIP(@,E^{(1)}.VAL,-)\}$
- $E→id\ \ \ \ \{E.VAL:= ENTRY(id)\}$
$E . V A L$ ：指示器，指向符号表中一项，或者三元式表中某一项
$T R I P$ ：语义过程，产生新的三元式，回送新三元式在三元式表中的位置
$E N T R Y$ ：对 $i d$ 代表的标示符查找符号表以获知在表中的位置的函数；涉及2个语义过程：
- $L o o k u p (N a m e)$ ：对 $N a m e$ 查符号表。查到则返回入口值，否则返回 $N u l l$ (出错处理，或调用 $F i l l s y m$ )
- $F i l l s y m (N a m e)$ ：在符号表中开辟新项目，返回入口值

间接三元式

三元式的不足：

若考虑代码优化问题，三元组表示并不适宜。因为代码优化时，通常需要删除某些运算，或者改变运算的次序，这势必要导致代码的移动
三元式间的相互引用非常频繁，每当移动一个三元式时，就必须改变所有引用它的三元式。当需要进行代码优化时，三元组不是一种很好的中间语言形式。三元式中指示器连接，不能更动，不利于优化

间接三元式：

为了克服三元组表示不便于优化的缺点，可使用一张额外的执行表来保存三元组的执行顺序。当需要完成优化时，只改变执行表中的项，而实际的三元组保持不变
存放三元式本身的表，称为三元式表，如果有两个相同的三元式，只需保留一个
因此，对于间接三元式表示，产生三元式表时，应增添产生间接码表的语义动作。并且，在向三元式表填进一个三元式之前，必须先查看一下此式是否已在其中，如已在其中，就无需再填如

例 $X:=(A+B)*C\\ Y:=D↑(A+B)$
在这里插入图片描述

树形表示

树形表示是三元式的翻版
- 运算符为根，树的中序遍历为原表达式
- 开始简单变量或者常数的树就是该变量或者常数自身。一般叶子表示运算量，内结点表示 $O P$
  - 如 $e_1$ 和 $e_2$ 的树为 $T_1$ 和 $T_2$ , 则 $e_1+e_2$ 、 $e_1*e_2$ 和 $e_1$ 的树分别为：

产生式所带的语义动作，与三元式相似，由以下模式描述：
- $E→E^{(1)}\ op\ E^{(2)}\ \ \ \ \{E.VAL:= NODE(op,E^{(1)}.VAL,E^{(2)}.VAL\}$
- $E→(E^{(1)})\ \ \ \ \{E.VAL:= E^{(1)}.VAL\}$
- $E→-E^{(1)}\ \ \ \ \{E.VAL:= UNARY(@,E^{(1)}.VAL,-)\}$
- $E→id\ \ \ \ \{E.VAL:= LEAF(id)\}$
- $N O D E$ ：建立一个以 $O P$ 为结点， $E^{(1)}.VAL$ 和 $E^{(2)}.VAL$ 为左右枝的子树，回送新子树根的指针
- $U N A R Y$ ：语义过程与 $N O D E$ 相仿，但是它只有一个分枝
- $E N T R Y$ ：建立一个以 $i . L E X V A L$ 为标志的结点，并回送此结的地址，该结是个叶结点

例： $A * (B + C) / D$
在这里插入图片描述

当然，我们可以为任意的构造创建抽象语法树，而不仅仅为表达式创建语法树。每个构造用一个结点表示，其子结点代表此构造中具有语义含义的组成部分
- 比如，
  $while\ \ (expr)\ \ stmt$ 中，具有语义含义的组成部分是表达式 $e x p r$ 和语句 $s t m t$ 。这样的 $w h i l e$ 语句的抽象语法树结点有一个运算符 $w h i l e$ , 并有两个子结点：分别是 $e x p r$ 和 $s t m t$ 的抽象语法树
- 因此，类 $N o d e$ 有两个直接子类，一个是 $E x p r$ ，代表各种表达式；另一个是 $S t m t$ ，代表各种语句。每一种语句都有一个对应的 $S t m t$ 的子类。比如，运算符 $w h i l e$ 对应子类 $w h i l e$ 。一个对应于运算符 $w h i l e$ , 子结点为 $x$ 和 $y$ 的语法树结点可以由如下伪代码创建：
  $w\ While(x,y)$
在下面的表格中，属性 $n$ 表示某个结点的子树；例如 $stmt\rightarrow block \ \ \ \ \ \{stmt.n=block.n\}$ 就表示当一个语句是一个语句块时，它的抽象语法树和这个语句块的相同

四元式

四元式格式： $OP,OP_1,OP_2,RESULT)$
- $O P$ 代表算符； $OP_1、OP_2$ 代表运算对象， $R E S U L T$ 存放运算结果
- $OP_1、OP_2$ 和 $R E S U L T$ 为符号表入口或者临时变量的整数码
- $R E S U L T$ 为 $T_i$ 时的处理：可以填入符号表，通过符号表入口进行引用，也可以不填，用某种整数编码代表它们
扩充四元式
- $jp, \_, \_, L )$ , 也可写成 $goto\ L$
- $(j ＜, A, B, L)$ , 也可写成 $if\ A ＜B\ goto\ L$
- $jnz, A, \_, L)$ , 也写成 $if\ A\ goto\ L$

四元式特点：

四元组中四元式的顺序是按照相应表达式的实际运算顺序出现
四元式使用临时变量，计算和使用的联系不那么直接了，允许重排顺序，利于优化

例： $A : = - B * (C + D)$ 的四元式
$1)( @, B, \_ , T_1 )\\ (2)( +, C, D, T_2 )\\ (3)( *, T_1, T_2, T_3 )\\ (4)(:=, T_3, \_, A )$

例： $a : = b * c + b * d$ 的四元式
$1)( *, b, c, t_1 )\\ (2)( *, b, d, t_2 )\\ (3)( +, t_1, t_2, t_3 )\\ (4)( :=, t_3 ,\_, a )$

例： $i f$ $E$ $o r$ $(B < C)$ $t h e n$ $S_1$ $e l s e$ $S_2$ 的四元式
$\begin{aligned}&(1)(jnz,E,\_,\boldsymbol5)\\ &(2)(j,\_,\_,3)\\ &(3)(j<,B, C,\boldsymbol5)\\ &(4)(j,\_,\_, p+1)\\ &(5) 与S_1相应的四元式序列\\ &(p)(j,\_, \_,q)\\ &(p+1)与 S_2 相应的四元式序列\\ &(q)…\end{aligned}$

简单赋值语句的翻译

本节讨论只含整型变量的简单赋值句的翻译，其文法描述：
$S→i:=E\\ E→E+E|E*E|-E|(E)|i$

$S$ 代表“赋值句”
该文法是二义性文法，但通常假设算符的结合性和优先级的规定，二义性可以克服

语义变量与过程函数：

$N E W T E M P$ : 每次调用时，它都回送一个代表新临时变量名的整数码作为函数值
$E N T R Y (i)$ ：涉及2个语义过程：
- $L o o k u p (i)$ ：对 $i$ 查符号表。查到则返回入口值，否则返回 $N u l l$ (出错处理，或调用 $F i l l s y m$ )
- $F i l l s y m (i)$ ：在符号表中开辟新项目，返回入口值
$E . P L A C E$ : 和非终结符 $E$ 相联系的语义变量，表示存放 $E$ 值的变量名在符号表的入口或者整数码（若为临时变量）
$GEN(OP,OP_1,OP_2,RESULT)$ : 语义过程，把四元式 $OP,OP_1, OP_2,RESULT)$ 填入四元式表

语义动作描述

在这里插入图片描述

例
$A : = - B * (C + D)$

归约树

类型转换

引入类型信息语义量：

在赋值语句翻译中，在进行混合运算时，首先要将整型量转换为实型量。而要进行转换，其前提是对每一 $V_N$ ，必须有类型信息语义量 $E . M O D E$ ；对应的产生式要附加关于 $E . M O D E$ 的语义规则；非终结符 $E$ 的语义值 $E . M O D E$ 必须保存在翻译栈中

语义规则：
${ IF\ E^{(1)}.MODE = int\ AND\ E^{(2)}.MODE = int\\ THEN\ E.MODE := int\\ ELSE\ E.MODE := r\}$

类型转换四元式：

将整型量 $A_1$ 转换成实型量：
$itr, A_1,\_,T)$

例

输入串为 $X : = Y + I * J$ ， $X, Y$ 为实型， $I, J$ 为整型
四元式如下：
$^i , I , J , T_1)\\ ( itr , T_1, \_ ,T_2)\\ ( +^r , Y , T_2 , T_3)\\ ( :=, T_3 , \_ , X)$
- 运算符要指出相称的类型，说明是定点还是浮点运算

布尔表达式的翻译

布尔表达式是由布尔算符 ( $\land, \lor, ┐$ ) 作用于布尔变量或关系表达式而形成的。形式为 $E_1\ rop\ E_2$ ；其中， $r o p$ 是关系符， $E_1$ 和 $E_2$ 是算术式
文法： $i\ rop\ i$
- 布尔算符的优先顺序： $┐, \land, \lor, \land, \lor$ 服从左结合
- 所有关系符的优先级相同，高于任何布尔算符，低于任何算术算符
- 关系符不得结合，如 $A > B > C$ 不合法

拉链回填

例
布尔表达式 $b\ or\ c >= d$ 的四元式
在这里插入图片描述
但注意到，上面的翻译其实是不合理的，因为没有考虑短路求值的特性：

布尔表达式 $E$ 的翻译结构：
- 从整体上， $E$ 对外只能转向两个目标
- $E$ 的翻译是由一组条件真跳和无条件跳代码组成。待填地址采用回填、拉链方法实现
- $E . t r u e$ ：表示 $E$ 的真链。把需要回填真出口的四元式拉成链，它们的真出口与 $E$ 的真出口一致，用 $E . t r u e$ 指向
- $E . f a l s e$ ：表示 $E$ 的假链。把需要回填假出口的四元式拉成链，它们的假出口与 $E$ 的假出口一致，用 $E . f a l s e$ 指向

例
$IF\ A∨B<D\ THEN\ S_1\ ELSE\ S_2$
在这里插入图片描述

红色为真链；蓝色为假链
上图中的红色的 5 是通过真链回填得到的，当还没有得到具体要跳转的地址时，跳转地址可以暂时由 0 (链尾) 或链上的上一个四元组的标号

文法定义

布尔表达式文法
$G_1[E]:E→E∧E∣E∨E|¬E|(E)|i|i\ rop\ i$
改造布尔表达式文法
$G_2[E]:E→E\ \hat{} E|E°E|¬E|(E)|i|i\ rop\ i\\ E\ \hat{}→E∧\\ E°→E∨$

至于为什么这么改造，看了下面的具体操作步骤就明白了；中心思想是因为在自底向上分析中，符号串归约出栈之后，它们的属性也会删除，因此需要在归约时保存相应的信息 (在这个例子中，这个信息就是 $T C$ 和 $F C$ )

当然，这样改造不是唯一的

在这里插入图片描述

可以看到，每个语义动作中，如果产生式右部的 $T C, F C$ 属性可以填写，就直接进行回填；如果目前还不能填，就由产生式左部的属性加以保存，在之后进行回填

每一个非终结符号 $E$ 都有两个综合属性 $T C$ 和 $F C$ 用来管理布尔表达式的跳转代码中的标号：
- $T C$ 为一个包含跳转或条件跳转指令的列表，我们必须向这些指令中插入适当的标号，也就是当 $E$ 为真时控制流应该转向的标号
- 类似地， $F C$ 也是一个包含跳转指令的列表，这些指令最终获得的标号就是当 $E$ 为假时控制流应该转向的标号
- 在生成 $E$ 的代码时，跳转到真或假出口的跳转指令是不完整的，标号字段尚未填写。这些不完整的跳转指令被保存在 $E . T C$ 和 $E . F C$ 所指的列表中
$N X Q$ 表示下一个四元组的序号
$G E N$ 产生一个四元组
$B A C K P A T C H (p, i)$ 表示回填，将 $i$ 作为目标标号插入到 $p$ 所指列表中的各指令中
$MERG(p_1,p_2)$ 表示将 $p_1$ 和 $p_2$ 指向的列表进行合并，返回合并后的列表

$3$ 为拉链回填的结果； $1$ 指向真链中的上一个四元组的位置

控制结构的翻译

标号和转移语句的翻译

语言中允许标号先定义后使用，也允许先使用后定义
$S\\ Goto\ L$
- 先定义：
先使用：

标号语句的产生式：
$→label\ S\\label→i:$

$L a b e l \to i$ : 的语义动作
- 若 $i$ 所指的标识符 (假定为 $L$ ) 不在符号表中，则把它填入，置类型为“标号”，“定义否”为“已”，地址为 $N X Q$
- 若 $L$ 已在符号表中，但“类型”不为“标号”或者“定义否”为“已”，则报告出错
- 若 $L$ 已在符号表中，则把标志“未”改为“已”，然后，把地址栏中的链头(记为 $q$ )取出，同时把 $N X Q$ 填在其中，最后，执行 $B A C K P A T C H (q, N X Q)$

条件语句的翻译

$i f$

在这里插入图片描述

较为复杂的程序控制语句常常是嵌套的；如下例所示，在 $S_2$ 翻译之后，也不能确定其跳转地址，它要跨越 $S_2, S_3$ ：

解决方法：仿照 “拉链回填” 方法
- 令每个非终结符 $S (L)$ 附带一项语义值 $S . C H A I N$ ，它指出一条链的头，该链是所有期待翻译完 $S$ 后回填目标的四元式组成的
- 回填目标可能是 ${S\}$ 的下一条四元式，也可能不是。真正的回填，要在处理完 $S$ 的外层后进行

例
$i f$ $a < b$ $o r$ $c > d$ $a n d$ $e > f$ $t h e n$ $S_1$ $e l s e$ $S_2$ 的翻译
在这里插入图片描述

$w h i l e$

$W H I L E$ $E^{(1)}$ $D O$ $S^{(1)}$
- 由于语句的嵌套， $W H I L E$ 翻译完了也未必知道假出口的转移目标，所以作为 $S^{(1)}.CHAIN$ 保留下来,以便伺机回填

例
将 $w h i l e (A < B)$ $d o$ $i f$ $(C < D)$ $t h e n$ $X : = Y + Z$ 翻译成四元式
在这里插入图片描述

条件语句的文法

$\begin{aligned} S \rightarrow& if\ E\ then\ S\\ &|if\ E\ then\ S\ else\ S \\ &|while\ E\ do\ S\\ &|begin\ L\ end\\ &|A\\ L\rightarrow& L; S\\ &|S\end{aligned}$

$S$ ：语句
$L$ ：语句串
$A$ ：赋值句
$E$ ：布尔表达式

为了能及时回填有关四元式的转移目标，如同处理布尔表达式一样，需要对文法进行改写
$\begin{aligned} S \rightarrow& C\ S\\ &| T^P\ S\\ &| W^d\ S\\ &| begin\ L\ end\\ &| A\\ L \rightarrow&L^S\ S\\ &| S\\ C\rightarrow&if\ E\ then\\ T^P\rightarrow&C\ S\ else\\ W^d\rightarrow&W\ E\ do\\ W \rightarrow&while\\ L^S\rightarrow&L;\end{aligned}$

条件语句的语义动作

$\begin{aligned} C \rightarrow&if\ E\ then\\ \{ &BACKPATCH (E.TC, NXQ);\\ &C.CHAIN := E.FC \}\\ S \rightarrow&C\ S^{(1)}\\ \{&S.CHAIN := MERG(C.CHAIN, S^{(1)}.CHAIN)\}\\ T^P \rightarrow&C\ S^{(1)}\ else\\ \{ &q := NXQ;\\ &GEN(j, \_, \_, 0);\\ &BACKPATCH(C.CHAIN,NXQ);\\ &T^P.CHAIN := MERGE(S^{(1)}.CHAIN,q)\}\\\end{aligned}$

注意，上面的 $q$ 为 $GEN(j, \_, \_, 0)$ 的位置；而第三行的 $N X Q$ 指的是 $GEN(j, \_, \_, 0)$ 的下一个四元式的地址

$\begin{aligned} S\rightarrow&T^P\ S^{(2)}\\ \{ &S.CHIAN := MERG(T^P.CHIAN, S^{(2)}.CHIAN)\}\end{aligned}$

$\begin{aligned} W \rightarrow&while\\ \{ &W.QUAD := NXQ \}\end{aligned}$

$w h i l e$ 归约为 $W$ 是因为要记录 $d o$ 中循环体做完之后的跳回位置； $W . Q U A D$ 即为循环体做完判断 $E$ 的地方

$\begin{aligned} W^d \rightarrow&W\ E\ do\\ \{ &BACKPATCH (E.TC,NXQ);\\ &W^d.CHAIN := E.FC;\\ &W^d.QUAD := W.QUAD \}\\ S \rightarrow&W^d S^{(1)}\\ \{ &BACHPATCH(S^{(1)}.CHAIN,W^d.QUAD);\\ &GEN(j,\_,\_, W^d.QUAD); \\ &S.CHAIN := W^d.CHAIN\}\end{aligned}$

$\begin{aligned} L \rightarrow&S\\ \{ &L.CHAIN := S.CHAIN\}\\ L^S \rightarrow&L;\\ \{ &BACKPATCH(L.CHAIN,NXQ) \} \\ L \rightarrow&L^S\ S^{(1)}\\ \{ &L.CHAIN := S^{(1)}.CHAIN\}\\ S\rightarrow&begin\ L\ end\\ \{ &S.CHAIN := L.CHAIN\}\\ S \rightarrow&A\\ \{ &S.CHAIN := 0\} 空链\end{aligned}$

例
在这里插入图片描述
例

上图中省略了 $W H I L E$ 归约为 $W$ ，保存 $W . Q U A D$ 的过程

例
在这里插入图片描述

**分叉语句的翻译

形式:

// E 是一个整型表达式
// Ci 为常数
// Si 是语句
case E of 
	C1: 
		S1
	C2: 
		S2
	…
	Cn-1: 
		Sn-1 
otherwise: 
	Sn 
end

分叉只有 10 个左右时，翻译成条件转移语句

T := E;

L1: 
IF T≠C1 GOTO L2
S1;
GOTO NEXT 

L2: 
IF T≠C2 GOTO L3
S2;
GOTO NEXT;

L3: ......

Ln-1: 
IF T≠Cn-1 
GOTO Ln
Sn-1;
GOTO NEXT; 

Ln: Sn;
NEXT:

开关表方法
- 编译程序构造下面的开关表
- 产生将 $E$ 值送到该表末项的指令组,以及一个对 $E$ 值查找开关表的程序
- 运行时，循环程序对 $E$ 值查开关表，当 $E$ 与某个 $C_i$ 匹配就执行 $S_i$
- 如果 $c a s e$ 的分叉情况比较多，最好建立 Hash 表。求出 $H(C_i)$ , 在其中填入 $C_i$ 和 $S_i$ ；有的表项为空。运行时，求 $H (E)$ 值，找对应表项；如空白，则执行 $S_n$
一种便于语法分析制导实现的中间码形式

T := E 的中间码
Goto TEST

L1: 关于S1的中间码
Goto NEXT

L2: 关于S2的中间码
Goto NEXT

…

Ln-1: 关于Sn-1的中间码
Goto NEXT

Ln:  关于Sn的中间码
Goto NEXT

TEST:  
IF T=C1 GOTO L1;
IF T=C2 TOTO L2;…
IF T=Cn-1 GOTO Ln-1
Goto Ln
NEXT:

过程调用的翻译

过程调用 (转子) 的难点：转移目标、返回地址、参数传递
文法 $G$ ：
$\begin{aligned}(1) S &\rightarrow CALL\ i(arglist)\\ (2) arglist &\rightarrow arglist,E\\ (3) arglist &\rightarrow E\end{aligned}$

语义动作

常用方案

主程序： $实参\rightarrow约定单元$
子程序： $约定单元\rightarrow形参$
由指令携带参数地址，把实参地址统一放在转子指令前，如下所示
如 $CALL\ S(A+B,Z)$ 翻成
$\begin{aligned} &K-4: \{T := A+B\}\\ &K-3: Par\ T\\ &K-2: Par\ Z\\ &K-1: Call\ S\\ &K: …\end{aligned}$
- 困难：如何在处理参数串的过程之中记住每个实参的地址，以便最后将它们排列在转子指令的前面
- 解决：第一个实参建立队列，后面的循序记录，保持队列头

$\begin{aligned}S \rightarrow&CALL\ i(arglist)\\ \{&FOR\ 队列arglist.QUEUE的每一项P\ DO\\ &\ \ \ \ \ \ \ GEN ( par,\_,\_,p);\\ &GEN (call,\_,\_,ENTRY(i))\}\\ arglist \rightarrow&arglist^{(1)},E\\ \{ &把E.PLACE排在arglist^{(1)}.QUEUE的末端；\\ &arglist.QUEUE := arglist^{(1)}.QUEUE\}\\ arglist \rightarrow&E\\ \{ &建立一个arglist.QUEUE,它只包含一项E.PLACE\}\end{aligned}$

例
$CALL\ S(A+B,Z)$
$\begin{aligned} &(+,ENTRY(A),ENTRY(B),T)\\ &(par, \_, \_, T)\\ &(par, \_, \_, Z)\\ &(Call,\_, \_, ENTRY(S))\end{aligned}$

写法二义性

$X : = A (I, J)$

过程调用或者数组引用，两者难以区分。而语法制导翻译是按语法规则（产生式）进行的，上下文无法区分，造成了翻译的困难
解决方案
- 查符号表
- 词法分析器在发送 $A$ 之前先查表确定其特性
- 规定数组用 $[\ ]$ ，避免冲突

声明语句的翻译

声明语句如

Integer L, M, N;
ARRAY A;

语义动作是把 $L, M, N, A$ 登记到符号表中，并在相应位置填入整型等性质

声明语句文法， $G [D]$
$\begin{aligned}D \rightarrow&integer\ namelist\ |\ real\ namelist\\ namelist \rightarrow&namelist,i\ |\ i\end{aligned}$

该文法存在的问题：该文法要求把完整的 $n a m e l i s t$ 读完才能做语义动作（在符号表中登记性质）。这样，就必须用栈、队列来保存所有这些名字

改造文法， $G [D]$
$\rightarrow D,i\ |\ integer\ i\ |\ real\ i$

$\begin{aligned}D \rightarrow& integer\ i\\ \{&FILL(ENTRY(i),int);D.ATT := int\}\\ D \rightarrow&real\ i\\ \{&FILL(ENTRY(i),real);D.ATT := real\}\\ D \rightarrow&D^{(1)},i\\ \{&FILL(ENTRY(i),D^{(1)}.ATT);D.ATT := D^{(1)}.ATT \}\end{aligned}$

数组说明

数组声明语句如
$Array\ A[l_1:u_1,l_2:u_2,…,l_n:u_n]$
- $l_i,u_i$ 为第 $i$ 维的上下界， $n$ 为维数
在处理数组时，通常会把数组的有关信息记录在内情向量中。对于静态数组，内情向量可以放在符号表中；对于动态可变数组，将在运行时建立相应的内情向量
- $d_i=u_i-l_i+1$ 为第 $i$ 维的长度
- $t y p e$ 为数组元素的类型
- $a$ 为数组首元素的地址
- $C$ 为计算元素偏移地址时不变的部分，例如：

数组声明需要完成的工作：填向量、申请空间、计算下标地址

$A$ 为确定数组
- 每维的上下限 $l, u$ 都是常数，长度 $d$ , 体积 $A$ 都可以计算。编译时可填所有元素
- 由于下标变量度地址的计算涉及的 $l, u$ 都是已知量，所以运行时可以不要信息向量，理论上只要保留工作单元和一些常数就可以了
$A$ 为可变数组
- $l, u$ 是变量，体积要在运行时计算确定
- 编译时分配向量区，是空架子
- 编译时产生计算 $l, u$ 的指令组，填入向量区中
- 根据 $l, u$ ,申请内存区的指令

可变数组分配子程序

输入：维数 $n$ ，界限序列 $l_1, u_1, l_2, u_2, …l_n, u_n$ ，类型 $t y p e$ 以及内情向量表区地址
功能：建立内情向量并分配数组空间

BEGIN
	i:=1; N:=1; C:=0; 
	WHILE i ≤ n  DO
	BEGIN
		di := ui –li +1; 
		N:=  N * di;
		C := C * di + li;
		把 li，ui 和 di 填入内情向量表区中；
		i := i + 1
	END;
申请 N 个单元的数组空间，令这片空间的首地址为 a；
把 n 和 C，以及 type 和 a 填入内情向量区中
END;