摘要:设计一个Parser generator自动生成器,对增广文法G自动生成其LR(1) parser语法解析器。
为什么要做这个生成器?因为以前写过递归下降的LL(1)的parser,觉得很费脑,业务逻辑和代码实现都要全盘考虑,不利于开发。当然我得承认这样利于优化,执行效率更高。如果先做好generator,自动生成自底向上的LR parser,开发起来更方便,利于以后扩展或修改文法。这大概就是所谓的增加一个抽象层来分解复杂问题。
谈谈LALR(1)与LR(0)、SLR(1)、LR(1)的联系与区别。自底向上的语法解析器,设计好其增广文法之后,可以生成LR(0)项集。在此项集的基础上,用非终结符号的Follow集符号指导action动作为reduce,根据项与项的转移生成针对终结符号的action动作为shift,以及非终结符号的Goto表。这就是SLR(1)。如果在项集里面增加一个属性用来表示展开式的Follow集,生成项集时连带考虑Follow集符号不同的为单独项,就是LR(1)。LR(1)合并相同内核的项,则变成了LALR(1)。一般说来,LALR(1)文法最常用,表达能力稍弱于LR(1),但强于SLR(1)。表达能力主要指正确解决移进归约冲突的能力。
generator适合单独放一个包里,与parser隔开。输入是一个txt文件,按行列出每条语法式,最后应该有全部的符号汇总,非终结符和终结符。输出也是一个txt文件,记录了action(I, a)和goto(I, X)表。
现在开始设计generator的架构。说句题外话,关于数据结构和算法。数据结构+算法=程序。但是数据结构是本质,是根基。因为数据结构,也就是数据储存方式的抽象,决定了算法的形式。例如lis