自己动手制作C 语言编译器（3）：词法分析器

最新推荐文章于 2024-07-02 22:22:32 发布

Python编程导师

最新推荐文章于 2024-07-02 22:22:32 发布

阅读量1.1k

点赞数 1

分类专栏：编程 C语言 c/c++ 文章标签：词法分析器编译器编程 C语言程序

本文链接：https://blog.csdn.net/weixin_41986518/article/details/86504097

版权

本文介绍了如何构建词法分析器，它是编译器的重要组成部分，负责将源码字符串转化为标记流。词法分析器通过正则表达式识别标记，简化语法分析器的任务。文章详细阐述了词法分析器的工作原理，包括换行符处理、宏定义跳过、标识符与符号表管理、数字和字符串解析等，并提供了部分代码示例。词法分析器的实现涉及到错误处理策略，如遇到未知字符时的处理方式。最后，文章强调了词法分析器在编译过程中的作用和lookahead概念，以及如何处理标识符和符号表。

摘要由CSDN通过智能技术生成

本篇我们要讲解如何构建词法分析器。

什么是词法分析器

简而言之，词法分析器用于对源码字符串做预处理，以减少语法分析器的复杂程度。

词法分析器以源码字符串为输入，输出为标记流（token stream），即一连串的标记，每个标记通常包括：(token, token value)即标记本身和标记的值。例如，源码中若包含一个数字'998'，词法分析器将输出(Number, 998)，即（数字，998）。再例如：

2 + 3 * (4 - 5)

=>

(Number, 2) Add (Number, 3) Multiply Left-Bracket (Number, 4) Subtract (Number, 5) Right-Bracket

通过词法分析器的预处理，语法分析器的复杂度会大大降低，这点在后面的语法分析器我们就能体会。如果想一起交流的可以加这个群：941636044 ，有什么问题可以群里面交流，群里面也有一些方便学习C语言C++编程的资料可以给你利用。

词法分析器与编译器

要是深入词法分析器，你就会发现，它的本质上也是编译器。我们的编译器是以标记流为输入，输出汇编代码，而词法分析器则是以源码字符串为输入，输出标记流。

+-------+ +--------+

-- source code --> | lexer | --> token stream --> | parser | --> assembly

+-------+ +--------+

在这个前提下，我们可以这样认为：直接从源代码编译成汇编代码是很困难的，因为输入的字符串比较难处理。所以我们先编写一个较为简单的编译器（词法分析器）来将字符串转换成标记流，而标记流对于语法分析器而言就容易处理得多了。

词法分析器的实现

由于词法分析的工作很常见，但又枯燥且容易出错，所以人们已经开发出了许多工具来生成词法分析器，如lex, flex。这些工具允许我们通过正则表达式来识别标记。

这里注意的是，我们并不会一次性地将所有源码全部转换成标记流，原因有二：

1.字符串转换成标记流有时是有状态的，即与代码的上下文是有关系的。

2.保存所有的标记流没有意义且浪费空间。

所以实际的处理方法是提供一个函数（即前几篇中提到的next()），每次调用该函数则返回下一个标记。

支持的标记

在全局中添加如下定义：

// tokens and classes (operators last and in precedence order)

enum {

  Num = 128, Fun, Sys, Glo, Loc, Id,

  Char, Else, Enum, If, Int, Return, Sizeof, While,

  Assign, Cond, Lor, Lan, Or, Xor, And, Eq, Ne, Lt, Gt, Le, Ge, Shl, Shr, Add, Sub, Mul, Div, Mod, Inc, Dec, Brak

};

这些就是我们要支持的标记符。例如，我们会将=解析为Assign；将==解析为Eq；将!=解析为Ne等等。

所以这里我们会有这样的印象，一个标记（token）可能包含多个字符，且多数情况下如此。而词法分析器能减小语法分析复杂度的原因，正是因为它相当于通过一定的编码（更多的标记）来压缩了源码字符串。

当然，上面这些标记是有顺序的，跟它们在 C 语言中的优先级有关，如*(Mul)的优先级就要高于+(Add)。它们的具体使用在后面的语法分析中会提到。

最后要注意的是还有一些字符，它们自己就构成了标记，如右方括号]或波浪号~等。我们不另外处理它们的原因是：

1.它们是单字符的，即并不是多个字符共同构成标记（如==需要两个字符）；

2.它们不涉及优先级关系。