pyparsing语法解析心得

最新推荐文章于 2024-07-20 10:13:21 发布

weixin_34072637

最新推荐文章于 2024-07-20 10:13:21 发布

阅读量1.3k

点赞数 3

文章标签： python 数据结构与算法

原文链接：https://my.oschina.net/u/877348/blog/93917

版权

本文介绍了pyparsing库在Python语法解析中的应用，探讨了PEG文法及其优势，包括消除歧义和保证解析唯一性。文章详细分析了pyparsing的数据结构ParseResults和ParserElement，解释了其递归深度优先解析过程，并讨论了如何通过packrat parser优化解析效率。

摘要由CSDN通过智能技术生成

2019独角兽企业重金招聘Python工程师标准>>>

一直想总结一年来开发维护导表工具的心得，却因为懒或者项目紧而长期搁置着。最近一个milestone结束之后，有了短暂的空闲调整期，正好趁着这段时间系统得整理一下，也算是一种备份，方便以后查找。

开发起始，花了一定的时间调研寻找一个好的语法解析器，因为在表格安全性检查过程中需要解析各种形式灵活的检查规则，所以需要一个类似lex/yacc这样具有强大语言解析功能，但语法规则又可以轻量级配置的解析器，最后选择了一种近似上下文无关CFG（context-free-grammar）的语言PEG(parsing-expression-grammar)，作为我们编写检查规则的基础文法。

PEG文法

要了解PEG文法的演变，首先得从CFG上下文无关文法讲起。对CFG文法的理解一直都停留在理论层面上，而语言{a ⁿb ⁿ, n >= 1}（例子1）则是绝大多数人首先能够想起的一个上下文无关文法的典型例子。对于CFG的详细定义可以从一般计算理论书上找到，这里就不再累赘。就我个人理解，上下文无关语言就是对有限确定集合中的元素，按照有限的递归级联合并规则组合而成的语言，譬如例子1中的语言所对应的有限确定集合就是
V = {a, b},
有限递归级联合并规则就是
S <-- ab

S <-- aSb

这两条规则产生的语言S 就等于{a ⁿb ⁿ, n >= 1}。而语言{a ⁿb ⁿc ⁿ, n >= 1}虽然也具备有限的确定元素集合，但不能由递归级联合并规则所产生，所以其不属于上下文无关语言。

然而上下文无关文法（CFG）却因为其规则的灵活性和语法解析的多样性，在工程运用上存在着障碍。CFG文法属于一种可以自顶向下解析的语言，如果一个字符串属于一种CFG语言，那么可以将这个字符串自顶向下逆向推导出构建的过程，产生一个语法解析树，而对于大多数CFG语言来说，其合法字符串可以被解析成多个不同结构的语法树，譬如如下的CFG语言（例子2）
S <-- a

S <-- S+S

解析字符串a+a+a就会得到两种不同的语法解析树，如下所示:

S
/ | \
/ | \
/ | \
S + S
|      / | \
|     / | \
a     S + S
|       |
a      a
S
/ | \
/ | \
/ | \
S + S
/ | \      |
/ | \    |
S + S   a
|       |
a      a
正是为了消除 CFG 语言在语义上的歧义性，工程中引入了 PEG 这种也可以自顶向下解析的语言。 PEG 在尽量保持 CFG 语言解析能力的同时，还可以保证语法解析树的唯一性，计算理论对 PEG 与 CFG 之间的差异进行了详细的阐述。就个人理解而言， PEG 的本质就是对 CFG 语言的级联规则做了相应的限制，使 PEG 在解析语言的时候有了一定的顺序性 (ordering) ，从而保证了语法解析树的唯一性。
相比灵活的 CFG 语法级联规则， PEG 只支持以下的几种级联操作：
•       Sequence: e ₁ e ₂
•       Ordered choice: e ₁ | e ₂
•       Zero-or-more: e*
•       One-or-more: e+
•       Optional: e?
对于上面提到的 CFG 语法（例子 2 ），只需将对应的规则进行稍稍的修改就可以转化成 PEG 文法（例子 3 ）：
S1 <-- a
S2 <-- S3
S3 <-- (S1 | S2 ) + ZeroOrMore( ‘ + ’ + (S1 | S2))
对于 a&