解析表达文法

最新推荐文章于 2024-03-08 18:55:06 发布

DOOM

最新推荐文章于 2024-03-08 18:55:06 发布

阅读量5.4k

点赞数 3

分类专栏：文字处理文章标签：正则表达式 parsing 语言 algorithm generator pascal

文字处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

http://article.yeeyan.org/view/76376/35225?from_com

http://en.wikipedia.org/wiki/Parsing_expression_grammar

解析表达文法

来自维基百科，自由的百科全书

解析表达文法，简称PEG，是一种解析形式的文法。这种文法用一个识别字符串的规则的集合来描述某种形式语言。解析表达文法以纯公式的形式的展现递归下降解析器的基础语法，对这个具体的解析器可能会采用的实现方法不做任何限定。解析表达文法看起来与，正则表达式和巴科斯形式的上下文无关文法（CFG）很像，但是表达的意思不同。

和CFG不同的是，PEG不能有二义性；解析一个字符串的时候，这个字符串只产生一个确定的解析树。这个特性使得PEG更适合计算机语言的解析，对于自然语言就不是很合适。

内容

[隐藏]

1 定义
- 1.1 解析表达式的解释
- 1.2 示例
2 根据解析表达文法实现解析器
3 优势
4 劣势
5 参考
6 引用
7 外部链接

定义

形式上，一个解析表达文法由以下部分组成:

一个有限的非终结符的集合 N
一个有限的终结符的集合 Σ，和 N没有交集
一个有限的解析规则的集合 P
一个被称作起点表达式的解析表达式 e_S

每一个解析规则以A ← e的形式出现，这里A是一个非终结符，e是一个解析表达式。解析表达式是类似正则表达式的层次表达式，由以下形式构成：

原子解析表达式由以下组成:
- 任何的终结符，
- 任何的非终结符，
- 空字符串 ε.
给定已经存在的解析表达式e, e₁, and e₂, 一个新的解析表达式可以通过以下操作构成:
- 序列: e₁ e₂
- 有序选择: e₁ / e₂
- 零个或更多: e*
- 一个或更多: e+
- 可选: e?
- 肯定断言: &e
- 否定断言: !e

CFG和PEG的关键不同是PEG的选择操作符是有序的。如果第一个可能成功了，那么第二个可能就忽略。因此PEG的有序选择是不可以互换的，这点和上下文无关文法或者正则表达式在教科书上的定义不同。有序选择类似于某些逻辑编程语言中的soft cut操作符【译注：没有查到这个soft cut operator到底是什么，我的理解是逻辑操作符and或者or这样的，如果前面的条件匹配了，后面的条件就被跳过不判断】。

与上下文无关文法或者其他生成文法不同，在解析表达文法里面，对应某个非终结符，必须且只能有一个的解析规则。这意味着，在PEG里面，解析规则就是定义，每一个非终结符必须有且只能由一个定义。

这导致的区别就是如果一个上下文无关文法被直接转换为解析表达文法，所有的不确定性的地方都会被确定下来，方法是从所有可能的解析树中选择一个分支。通过仔细安排文法可能项的顺序，编程的人就可以自由控制那一个解析分支被选中。

解析表达式的解释

解析表达文法里面的每一个非终结符本质上表示递归下降解析器里面的一个解析函数，其对应的解析表达式展示了这个函数包含的代码内容。概念上，每一个解析函数接受一个输入字符串作为参数，返回以下其中一个结果:

成功，函数可能向前移动或者“消耗”一个或多个输入字符串的字符
失败，不消耗任何字符

一个非终结符有可能成功但是不消耗任何输入字符，这也是一种不同于失败的结果。

只由一个终结符组成的原子解析表达式：成功，如果输入字符串的第一个字符就是定义中的终结符，这种情况下消耗这个输入字符；否之失败。由空字符串组成的原子解析表达式总是成功并且不消耗任何输入。只由一个非终结符A组成的原子解析表达式表示对非终结符A的解析函数的递归调用。

序列操作符 e₁e₂ 首先调用 e₁，如果 e₁成功，接着对 e₁消耗剩下的输入字符串调用 e₂，最后返回结果。如果 e₁ 或者 e₂ 失败，那么序列表达式 e₁e₂ 失败。

选择操作符e₁ / e₂首先调用 e₁，如果 e₁成功，立刻返回结果。否则如果 e₁失败，选择操作符回溯到输入字符串匹配 e₁ 的原始位置，调用 e₂，最后返回 e₂ 结果。

零个或多个，一个或多个，和可选操作符分别消耗零个或多个，一个或多个，或者零个或一个连续重复的子表达式e。与上下文无关文法和正则表达式不同的是，尽管如此，在PEG里这些操作符总是执行贪婪的行为，那就是消耗尽可能多的输入，而且绝对不回溯。（正则表达式一开始执行贪婪匹配，但是如果整个正则表达式失败后，会回退并尝试短一些的匹配。）例如，解析表达式a*总是尽可能多的消耗输入字符串中连续出现的a，解析表达式(a* a)则必然会失败因为前半部分a*绝对不会留下一丁点a给后半部分去匹配。

最后，肯定断言和否定断言实现了句法断言。&e 表达式调用子表达式e，如果e成功，则返回成功；否则返回失败。无论结果如何都不消耗任何字符。反之，当e失败时！e 表达式成功，e成功时！e 表达式失败，同样无论结果如何都不消耗任何字符。因为向前判断的子表达式e 可以任意的复杂，所以断言表达式提供了强大的句法向前判断和去除二义性的能力。

示例

这是一个简单的解析表达文法，它识别基本的数学表达式，只使用了基本的四个运算符并且只接受正整数作为操作数.

Value ← [0-9]+ / '(' Expr ')'

Product ← Value (('*' / '/') Value)*

Sum ← Product (('+' / '-') Product)*

Expr ← Sum

在上面这个例子里面，终结符就是字符文本，用单引号括起来表示。比如'('和')'。[0-9]这个区间是10个字符的缩写，表示数字0到数字9里面的任意一个。（这里区间的语义和正则表达式里面的一样。）非终结符就是被定义成其他表达式的符号：Value, Product, Sum, and Expr.

下面的例子去掉引用标记以便阅读。小写字母表示终结符，大写字母是非终结符。真实的PEG语法要求所有的小写字母都在引号里面。

解析表达式(a/b)* 匹配任意长度的a和b序列。解析规则 S ← a S? b 描述了｛aⁿbⁿ:n ≥1｝这样一个简单的上下文无关匹配语言。而下面的这个解析表达文法则可以描述经典的非上下文无关文法｛aⁿbⁿcⁿ:n ≥1｝：

S ← &( A !b) a+ B !(a/b/c)

A ← a A? b

B ← b B? c

接下来的递归规则匹配了标准C风格的if/then/else语句。因为/操作符的隐式优先级安排，可选的else语句总是会被绑定到最内层的if语句。（在上下文无关文法里，这种结构的文法会导致悬空的else语句这种二义性错误。

S ← if C then S else S / if C then S

解析表达式 foo &(bar) 只有当 foo 后面紧跟着字符串 bar 的时候，才会匹配并消耗 foo。而解析表达式 foo !(bar) 只有当 foo 后面没有紧跟着字符串 bar 的时候，才会匹配。表达式!(a+ b) a 只有当a 不是一连串a后面连着一个b的情况下出现的时候，才能匹配一个单独的字母a。

下面的这个递归规则匹配Pascal格式的注释语法，(*和*)括号，其内部可以有嵌套的(*和*)对。注释符号放在双引号内内是为了与其他PEG操作符区分开来。

Begin ← "(*"

End ← "*)"

C ← Begin N* End

N ← C / (! Begin ! End Z)

Z ← any single character

根据解析表达文法实现解析器

所有的解析表达文法都能够被直接转化为递归下降解析器。尽管如此，因为PEG公式提供了理论上不受限制的向前检查的能力，所以最终得到的解析器还是可以避免最坏情况下指数级时间复杂度的。

通过保存增量解析步骤的结果和确保每一个解析函数在同一个输入位置只被调用一次，就可以把任意解析表达文法转化成一个Packrat Parser(译注：如果这里译作收集鼠解析器，似乎太可爱了点，就用英文吧），可以实现线性的时间复杂度解析，其代价是足够大量的空间占用。

一个Packrat Parser是一种结构上类似于递归下降解析器的语法解析器，区别是在解析过程中，它会记下所有互相递归调用的函数的中间结果。因为保存了这些信息，一个Packrat Parser就拥有了以线性时间复杂度解析多数上下文无关文法和所有解析表达文法的能力（包括某些表示的不是上下文无关文法语言的文法）。

从解析表达文法建立LL Parser和LR Parser也是可行的，但是在这两种情况下，不受限制的向前检查的能力就不能用了。