Yacc 与 Lex 快速入门（词法分析和语法分析）

最新推荐文章于 2021-06-30 16:30:44 发布

我为AI领域做了奉献

最新推荐文章于 2021-06-30 16:30:44 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/skiwnc/article/details/87460854

版权

本文介绍了编译器的工作流程，重点讲解了Yacc和Lex在语法分析和词法分析中的作用。Lex是一个生成扫描器的工具，通过匹配文本中的词汇模式并执行相关动作。Yacc则用于将编程语言的语法转换为解析器。文章详细解释了Lex的常规表达式、标记声明和编程步骤，并概述了Yacc的语法、非终端和终端符号。最后，讨论了如何将Lex与Yacc结合使用来构建编译器。

摘要由CSDN通过智能技术生成

原文：Yacc 与Lex 快速入门

我们知道，高级语言，一般的如c，java等是不能直接运行的，它们需要经过编译成机器认识的语言。即编译器的工作。

编译器工作流程：词法分析、语法分析、语义分析、IR（中间代码，intermediate Representation）产生、IR优化、代码产生、最终优化：

我们这里主要介绍的是语法分析：

Lex 代表 Lexical Analyzar。Yacc 代表 Yet Another Compiler Compiler。让我们从 Lex 开始吧。

Lex

Lex 是一种生成扫描器的工具。扫描器是一种识别文本中的词汇模式的程序。这些词汇模式（或者常规表达式）在一种特殊的句子结构中定义，这个我们一会儿就要讨论。

一种匹配的常规表达式可能会包含相关的动作。这一动作可能还包括返回一个标记。当 Lex 接收到文件或文本形式的输入时，它试图将文本与常规表达式进行匹配。它一次读入一个输入字符，直到找到一个匹配的模式。如果能够找到一个匹配的模式，Lex 就执行相关的动作（可能包括返回一个标记）。另一方面，如果没有可以匹配的常规表达式，将会停止进一步的处理，Lex 将显示一个错误消息。

Lex 和 C 是强耦合的。一个 .lex 文件（Lex 文件具有 .lex 的扩展名）通过 lex 公用程序来传递，并生成 C 的输出文件。这些文件被编译为词法分析器的可执行版本。

Lex 的常规表达式

常规表达式是一种使用元语言的模式描述。表达式由符号组成。符号一般是字符和数字，但是 Lex 中还有一些具有特殊含义的其他标记。下面两个表格定义了 Lex 中使用的一些标记并给出了几个典型的例子。

用 Lex 定义常规表达式

字符	含义
A-Z, 0-9, a-z	构成了部分模式的字符和数字。
.	匹配任意字符，除了 \n。
-	用来指定范围。例如：A-Z 指从 A 到 Z 之间的所有字符。
[ ]	一个字符集合。匹配括号内的任意字符。如果第一个字符是 ^ 那么它表示否定模式。例如: [abC] 匹配 a, b, 和 C中的任何一个。
*	匹配 0个或者多个上述的模式。
+	匹配 1个或者多个上述模式。
?	匹配 0个或1个上述模式。
$	作为模式的最后一个字符匹配一行的结尾。
{ }	指出一个模式可能出现的次数。例如: A{1,3} 表示 A 可能出现1次或3次。
\	用来转义元字符。同样用来覆盖字符在此表中定义的特殊意义，只取字符的本意。
^	否定。
\|	表达式间的逻辑或。
"<一些符号>"	字符的字面含义。元字符具有。
/	向前匹配。如果在匹配的模版中的“/”后跟有后续表达式，只匹配模版中“/”前面的部分。如：如果输入 A01，那么在模版 A0/1 中的 A0 是匹配的。
( )	将一系列常规表达式分组。

常规表达式举例

常规表达式	含义
joke[rs]	匹配 jokes 或 joker。
A{1,2}shis+	匹配 AAshis, Ashis, AAshi, Ashi。
(A[b-e])+	匹配在 A 出现位置后跟随的从 b 到 e 的所有字符中的 0 个或 1个。