自制脚本语言（2） LR(1) parser generator的设计

最新推荐文章于 2023-01-28 14:15:23 发布

nklofy

最新推荐文章于 2023-01-28 14:15:23 发布

阅读量1.8k

点赞数

分类专栏：自制脚本语言

本文链接：https://blog.csdn.net/nklofy/article/details/46514983

版权

本文探讨了设计一个LR(1)解析器生成器的原因，旨在简化语法解析器的开发，增强扩展性和修改性。通过对比LALR(1)、LR(0)、SLR(1)和LR(1)解析器，解释了它们之间的联系与区别，并阐述了LR(1)解析器如何处理移进归约冲突。文章还概述了生成器的架构，包括Grammar类、Symbol类、Item类及其核心函数，如getFirst、closure、getGoto和getCCs的伪码描述。

摘要由CSDN通过智能技术生成

摘要：设计一个Parser generator自动生成器，对增广文法G自动生成其LR(1) parser语法解析器。

为什么要做这个生成器？因为以前写过递归下降的LL(1)的parser，觉得很费脑，业务逻辑和代码实现都要全盘考虑，不利于开发。当然我得承认这样利于优化，执行效率更高。如果先做好generator，自动生成自底向上的LR parser，开发起来更方便，利于以后扩展或修改文法。这大概就是所谓的增加一个抽象层来分解复杂问题。

谈谈LALR(1)与LR(0)、SLR(1)、LR(1)的联系与区别。自底向上的语法解析器，设计好其增广文法之后，可以生成LR(0)项集。在此项集的基础上，用非终结符号的Follow集符号指导action动作为reduce，根据项与项的转移生成针对终结符号的action动作为shift，以及非终结符号的Goto表。这就是SLR(1)。如果在项集里面增加一个属性用来表示展开式的Follow集，生成项集时连带考虑Follow集符号不同的为单独项，就是LR(1)。LR(1)合并相同内核的项，则变成了LALR(1)。一般说来，LALR(1)文法最常用，表达能力稍弱于LR(1)，但强于SLR(1)。表达能力主要指正确解决移进归约冲突的能力。

generator适合单独放一个包里，与parser隔开。输入是一个txt文件，按行列出每条语法式，最后应该有全部的符号汇总，非终结符和终结符。输出也是一个txt文件，记录了action(I, a)和goto(I, X)表。

现在开始设计generator的架构。说句题外话，关于数据结构和算法。数据结构+算法=程序。但是数据结构是本质，是根基。因为数据结构，也就是数据储存方式的抽象，决定了算法的形式。例如lis