【编译原理】分析PL0编译器

转载自 分析PL0词法分析程序 原博的排版有些不易读。补充了部分内容 🥰

我的C语言版 和 原作者的pascal版 代码


PL/0语言是Pascal语言的一个子集,我们这里分析的PL/0的编译程序包括了 对PL/0语言源程序进行分析处理、编译生成类PCODE代码,并在虚拟机上解释运行生成的类PCODE代码的功能。
   PL/0语言编译程序采用 以语法分析为核心、一遍扫描的编译方法。词法分析和代码生成作为独立的子程序供语法分析程序调用。
  语法分析的同时,提供了出错报告和出错恢复的功能。在源程序没有错误编译通过的情况下,调用类PCODE解释程序解释执行生成的类PCODE代码。

词法分析子程序:

词法分析子程序名为getsym,功能是从源程序中读出一个单词符号(token),把它的信息放入全局变量sym、id和num中,语法分析器需要单词时,直接从这三个变量中获得。
  🐷注意!语法分析器每次用完这三个变量的值就立即调用getsym子程序获取新的单词供下一次使用。而不是在需要新单词时才调用getsym过程。
  
  getsym()通过反复调用getch子过程从源程序过获取字符,并把它们拼成单词。
  getch()中使用了行缓冲区技术以提高程序运行效率。
  词法分析器的分析过程:调用getsym时,它通过getch过程从源程序中获得一个字符。

  1. 如果这个字符是字母,则继续获取字符或数字,最终可以拼成一个单词,查保留字表,如果查到为保留字,则把sym变量赋成相应的保留字类型值; 如果没有查到,则这个单词应是一个用户自定义的标识符(可能是变量名、常量名或是过程的名字),把sym置为ident,把这个单词存入id变量。查保留字表时使用了二分法查找以提高效率。

  2. 如果getch获得的字符是数字,则继续用getch获取数字,并把它们拼成一个整数,然后把sym置为number,并把拼成的数值放入num变量。

  3. 如果识别出其它合法的符号(比如:赋值号、大于号、小于等于号等),则把sym赋值成相应的类型。

  4. 如果遇到不合法的字符,把sym置成null。

语法分析子程序:

语法分析子程序采用了自顶向下的递归子程序法,语法分析同时也根据程序的语义生成相应的代码,并提供了出错处理的机制。主要由

函数名
block分程序分析过程
constdeclaration常量定义分析过程
vardeclaration变量定义分析过程
statement语句分析过程
expression表达式处理过程
term项处理过程
factor因子处理过程
condition条件处理过程

构成。这些过程在结构上构成一个嵌套的层次结构。
嵌套结构如图所示

除此之外,还有

函数名辅助过程
error出错报告过程
gen代码生成过程
test测试单词合法性及出错恢复过程
enter登录名字表过程
position查询名字表函数
listcode列出类PCODE代码过程

作为语法分析的辅助过程。

语义分析也在其中处理了

在这里插入图片描述
  由PL/0的语法图 PL/0语言的语法描述 可知:一个完整的PL/0程序是由分程序和句号构成的。因此,本编译程序在运行的时候,通过主程序中调用分程序处理过程block来分析分程序部分(分程序分析过程中还可能会递归调用block过程),然后,判断最后读入的符号是否为句号。如果是句号且分程序分析中未出错,则是一个合法的PL/0程序,可以运行生成的代码,否则就说明源PL/0程序是不合法的,输出出错提示即可。
  
  下面按各语法单元分析PL/0编译程序的运行机制:
  
  🐟语法分析开始后,首先调用分程序处理过程(block)处理分程序。
  过程入口参数置为:0层、符号表位置0、出错恢复单词集合为句号、声明符或语句开始符。
  
  进入block过程后,首先把局部数据段分配指针dx设为3,准备分配3个单元供运行期存放静态链SL、动态链DL和返回地址RA。
  然后用tx0记录下当前符号表位置并产生一条JMP指令,准备跳转到主程序的开始位置,由于当前还没有知到主程序究竟在何处开始,所以JMP的目标暂时填为0,稍后再改。
  同时在符号表的当前位置记录下这个JMP指令在代码段中的位置。在判断了嵌套层数没有超过规定的层数后,开始分析源程序。

声明部分

首先判断是否遇到了常量声明,如果遇到则开始常量定义,把常量存入符号表
  接下来用同样的方法分析变量声明,变量定义过程中会用dx变量记录下局部数据段分配的空间个数。
  然后如果遇到procedure保留字,则进行过程声明和定义
  声明的方法是把过程的名字和所在的层次记入符号表;
  定义的方法就是通过递归调用block过程,因为每个过程都是一个分程序。由于这是分程序中的分程序,因此调用block时需把当前的层次号lev加一传递给block过程。
  
  分程序声明部分完成后,即将进入语句的处理,这时的代码分配指针cx的值正好指向语句的开始位置,这个位置正是前面的jmp指令需要跳转到的位置。
  于是通过前面记录下来的地址值,把这个JMP指令的跳转位置改成当前cx的位置。并在符号表中记录下当前的代码段分配地址和局部数据段要分配的大小(dx的值)。生成一条int指令,分配dx个空间,作为这个分程序段的第一条指令。
  这个视频的P2可能能帮助理解

语句部分

下面就调用语句处理过程statement分析语句。
分析完成后,生成操作数为0的opr指令,用于从分程序返回(对于0层的主程序来说,就是程序运行完成,退出)。
  语句处理过程是一个嵌套子程序,通过调用表达式处理、项处理、因子处理等过程及递归调用自己来实现对语句的分析。
  语句处理过程可以识别的语句包括赋值语句、read语句、write语句、call语句、if语句、while语句。
  当遇到begin/end语句时,就递归调用自己来分析。分析的同时生成相应的类PCODE指令。
  这个视频的P3可能能帮助理解

  • 赋值语句的处理:
      首先获取赋值号左边的标识符,从符号表中找到它的信息,并确认这个标识符确为变量名。然后通过调用表达式处理过程,计算赋值号右部的表达式的值,并生成相应的指令保证这个值放在运行期的数据栈顶。最后通过前面查到的左部变量的位置信息,生成相应的STO指令,把栈顶值存入指定的变量的空间,实现了赋值操作。
  • read语句的处理:
      确定read语句语法合理的前提下(否则报错),生成相应的指令:
      第一条是16号操作的OPR指令,实现从标准输入读一个整数值,放在数据栈顶。
      第二条是STO指令,把栈顶的值存入read语句括号中的变量所在的单元。
  • write语句的处理:
      与read语句相似。在语法正确的前提下,生成指令:通过循环调用表达式处理过程分析write语句括号中的每一个表达式,生成相应指令保证把表达式的值算出并放到数据栈顶并生成14号操作的OPR指令,输出表达式的值。
      最后生成15号操作的OPR指令输出一个换行。
  • call语句的处理:
      从符号表中找到call语句右部的标识符,获得其所在层次和偏移地址。然后生成相应的CAL指令。
      至于调用子过程所需的保护现场等工作是由类PCODE解释程序在解释执行CAL指令时自动完成的。
  • if语句的处理:
      按if语句的语法,首先调用逻辑表达式处理过程处理if语句的条件,把相应的布尔值放到数据栈顶。
      然后记录代码段分配位置(即后面生成的JPC指令的位置),然后生成条件转移JPC指令(栈顶为false就转移),转移地址未知暂时填0。
      调用语句处理过程处理then语句后面的语句或语句块。then后的语句处理完后,当前代码段分配指针的位置就应该是上面的JPC指令的转移位置。
      通过前面记录下的JPC指令的位置,把它的跳转位置改成当前的代码段指针位置。
  • begin/end语句的处理:
      通过循环遍历begin/end语句块中的每一个语句,通过递归调用语句分析过程分析并生成相应代码。
  • while语句的处理:
      首先用cx1变量记下当前代码段分配位置,作为循环的开始位置。
      然后处理while语句中的条件表达式生成相应代码把结果放在数据栈顶,再用cx2变量记下当前位置,生成条件转移指令,转移位置未知,填0。
      通过递归调用语句分析过程分析do语句后的语句或语句块并生成相应代码。
      最后生成一条无条件跳转指令JMP,跳转到cx1所指位置,并把cx2所指的条件跳转指令的跳转位置改成当前代码段分配位置。
  • 表达式、项、因子处理:
      根据PL/0语法可知,表达式应该是由正负号或无符号开头、由若干个项以加减号连接而成。
      而项是由若干个因子以乘除号连接而成,因子则可能是一个标识符或一个数字,或是一个以括号括起来的子表达式。
      根据这样的结构,构造出相应的过程,递归调用就完成了表达式的处理。
      把项和因子独立开处理解决了加减号与乘除号的优先级问题。
      在这几个过程的反复调用中,始终传递fsys变量的值,保证可以在出错的情况下跳过出错的符号,使分析过程得以进行下去。
      这个视频的P4可能能帮助理解
  • 逻辑表达式的处理:
      首先判断是否为一目运算符——odd(判奇偶)。
      如果是,则通过调用表达式处理过程分析计算表达式的值,然后生成判奇指令。
      如果不是,则肯定是二目运算符,通过调用表达式处理过程依次分析运算符左右两分的值,放在栈顶的两个空间中,然后根据不同的逻辑运算符,生成相应的逻辑判断指令,放入代码段。

判断单词合法性与出错恢复过程分析:

本过程有三个参数,s1、s2为两个符号集合,n为出错代码。
  本过程的功能是:测试当前符号(即sym变量中的值)是否在s1集合中
  如果不在,就通过调用出错报告过程输出出错代码n,并放弃当前符号,通过词法分析过程获取一下单词,直到这个单词出现在s1或s2集合中为止。
  源程序在出现错误时,可以及时跳过出错的部分,保证语法分析可以继续下去。
  
  这个过程在实际使用中很灵活,主要有两个用法:
  1. 在进入某个语法单位时,调用本过程,检查当前符号是否属于该语法单位的开始符号集合。若不属于,则滤去开始符号和后继符号集合外的所有符号。
  2. 在语法单位分析结束时,调用本过程,检查当前符号是否属于调用该语法单位时应有的后继符号集合。若不属于,则滤去后继符号和开始符号集合外的所有符号。

类PCODE代码解释执行过程分析:

在这里插入图片描述
  这个过程模拟了一台可以运行类PCODE指令的栈式计算机。
  它拥有一个栈式数据段用于存放运行期数据、拥有一个代码段用于存放类PCODE程序代码。同时还拥用数据段分配指针、指令指针、指令寄存器、局部段基址指针等寄存器。
  解释执行类PCODE代码时,数据段存储分配方式如下:
  对于源程序的每一个过程(包括主程序),在被调用时,首先在数据段中开辟三个空间,存放静态链SL、动态链DL和返回地址RA。
  
  这是难点,也是PL0和C最大的不同点,这个视频可能能帮助理解 (ฅ´ω`ฅ)
  
  静态链SL:记录了定义该过程的直接外过程(或主程序)运行时最新数据段的基地址。
  在一个子过程要引用它的直接或间接父过程(这里的父过程是按定义过程时的嵌套情况来定的,而不是按执行时的调用顺序定的)的变量时,可以通过静态链,跳过个数为层差的数据段,找到包含要引用的变量所在的数据段基址,然后通过偏移地址访问它。
  动态链DL:记录调用该过程前正在运行的过程的数据段基址。
  返回地址RA:记录了调用该过程时程序运行的断点位置。
  
  对于主程序来说,SL、DL和RA的值均置为0。
  
  静态链的功能是在一个子过程要引用它的直接或间接父过程(这里的父过程是按定义过程时的嵌套情况来定的,而不是按执行时的调用顺序定的)的变量时,可以通过静态链,跳过个数为层差的数据段,找到包含要引用的变量所在的数据段基址,然后通过偏移地址访问它。
  在过程返回时,解释程序通过返回地址恢复指令指针的值到调用前的地址,通过当前段基址恢复数据段分配指针,通过动态链恢复局部段基址指针。实现子过程的返回。
  对于主程序来说,解释程序会遇到返回地址为0的情况,这时就认为程序运行结束。
  
  解释程序过程中的base函数的功能,就是用于沿着静态链,向前查找相差指定层数的局部数据段基址。这在使用STO、LOD等访问局部变量的指令中会经常用到。
  
  类PCODE代码解释执行的部分通过循环和简单的case判断不同的指令,做出相应的动作。
  当遇到主程序中的返回指令时,指令指针会指到0位置,把这样一个条件作为终至循环的条件,保证程序运行可以正常的结束。


补充🧡

  1. 编译器:把源代码翻译成目标代码。
    广义上来说,只要从一种语言翻译成另一种语言都叫编译器
  2. 早期的编译器:处理语言相对简单,而且那时候内存并不富裕,所以不采用抽象语法树。直接在语法制导翻译中生成代码了,just like me.
    现代的编译器:一般采用抽象语法树AST(Abstract Syntax Tree)作为语法分析器的输出。因为现在有更好的系统支持,内存也宽裕了,而且语言变得复杂,语法树可以很好地简化设计。
    语法分析过程中生成AST,再去遍历AST进行语义分析,这两个过程是独立的!
  3. 上下文无关文法:一个语句的含义不受其他语句的影响。举个栗子:
    汉语是上下文有关的:“我是个好人。我唱歌特别好听。我刚刚说的都是假的。”
    汇编语言和机器语言是上下文无关的。CPU直接顺次执行。
    上下文无关语言解析起来更简单,编程语言基本上都是上下文无关的。
  4. debug技巧 : 中间代码生成是编译器前端和后端的分界线(前端不考虑真正的机器的,后端是将中间代码映射为真正的机器代码),也是很好的debug工具!
    以PL0为例,代码运行结果不符合预期时,先去看中间代码生成的对不对,如果正确,那是类Pcode的解释执行部分代码不对;如果中间代码不对,看看多生成了?少生成了?还是生成错了?可以很快定位到出错位置!
  5. 如何获得一个编译器
    method1 手写
    复杂、易出错,但是目前非常流行的GCC/LLVM都是手写的,因为可以人为控制所有细节,比如用哪些算法、数据结构等,时间和空间效率都会比较高。列举细节:
    1)用哈希表存储关键字,可以时间效率可以达到O(1)
    2)另一种区别关键字和标识符的方法:改造DFA
    3)如果用矩阵实现DFA,列顺序可以根据ASCII排,查列的时候用二分法

    method2 用自动生成工具
    1)最早出现的是lex&yacc,lex用于词法分析,yacc用于语法分析。现在最常用的是flex&bison(目前正在自学…),前身是lex&yacc。
    2)代码量少,解放程序员。大家如果自己手写过就会知道,维护更新是多么困难的一件事。而flex&bison将核心部分抽离出来,写好之后维护非常容易。
    3)因其可以自动生成,具有普适性,与手写的效率差距不大,可忽略。
    4)如果对性能没有非常极致的要求,实际应用中都是使用这种方法,会有工作岗位需求。
    ヽ(。◕‿◕。)ノ゚.:。+゚现在手写是帮助我们这些新手理解,理解之后再去学习这些自动化工具也会容易很多哒

感想

  1. 必须先理解BNF(描述语言语法的符号表达式)或者状态转换图,总之理解语法
  2. 再理解中间代码,才能明白“为什么要在这里、在这个时候生成这个代码”
  3. 自己动手去扩展语法,是彻底理解这个小编译器的捷径!!!!!可能会发出“这个看似麻烦的语法也太有用了叭,Ծ‸Ծ,” 的感叹
  4. “代码最终在CPU上执行” 的编译器都是类似的,是冯诺依曼早就决定好的
  • 20
    点赞
  • 88
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值