Engineering a Compiler读书笔记(2)：词法分析器

fang0jun

于 2020-04-17 02:34:49 发布

阅读量644

点赞数 1

分类专栏： learning 文章标签：正则表达式字符串编译器

本文链接：https://blog.csdn.net/a13352912632/article/details/105567057

版权

learning 专栏收录该内容

106 篇文章 7 订阅

订阅专栏

本文详细介绍了编译器工程中的词法分析器构建过程，包括正则表达式到非确定性有限自动机（NFA）和确定性有限自动机（DFA）的转换，如Thompson构造法、子集构造法和Hopcroft算法。同时讨论了识别器的概念、有限自动机的数学表示以及正则语言的表示方法。

摘要由CSDN通过智能技术生成

在这里插入图片描述

第二章, 词法分析器

简介：
|| 词法分析流程：(加粗字体维步骤)
读取字符流，并应用一组规则来识别单词在源语言中是否合法，如果单词判断为有效，则会给它分配词类，将其聚合形成单词流。

|| 程序设计语言的词法结构(微语法)：规定了如何将字符组合为单词
(区分：语法是对单词进行分类，组成句子)

|| 什么是有效标识符：大部分语言中标识符为：始于一个字母字符，后接上0个或多个字母/数字字符，结束于第一个非字母或数字的字符
eg：有效的标识符：dd55d88dd，fffff。无效的标识符：12fff

|| 关键字(保留字)：有特殊含义的有效标识符，词法分析器会自动将其归类到另一个语法范畴中去 eg：static，while，if

|| 对于识别一个单词的FA(有限自动机)来说，单词对应的实际文本称为*“词素”*

1.识别器

|| 识别器是一个可以识别字符流中单词的程序，它通过一套构造方法，由正则表达式转换而成

|| 识别器的转移图：每个圆圈都代表计算中的一个抽象状态
s0是初始状态，s5是接受状态（以双层圆圈绘制），通常省略目标为错误状态的转移
以下为关键字“while”的识别示例：
在这里插入图片描述
以下为new和not的识别器：

合并识别器：

|| 识别器的数学形式化：有限自动机
（对于一个识别器(识别单词程序)，我们将其转换图用五元组进行数学表示，则称该五元组为有限自动机，描述了识别器的规格）
完整解释：对于需要实现转移图的代码，转移图就是这些代码的抽象。我们将这些转移图看作形式化的数学对象时，称其为有限自动机（FA），它定义了识别器的规格。在形式上有限状态机是一个五元组（S, Σ, δ, s₀,S_A)，各分量的含义如下：

S是识别器中的有限状态集，以及一个错误状态s_e
Σ是识别器使用的有限字母表。通常，Σ即转移图中边的标签合集
δ(s，c)是识别器的转移函数，它将每个状态的s∈S和每个字符每个字符c∈Σ的组合(s, c)映射到下一个状态。例如在状态s_i遇到输入字符c，FA将采用转移s_i —> δ(s_i, c)
s₀ 是S中指定的起始状态
S_A 是S中的接受状态集合

|| tip：有限状态机中的"有限" 指的是状态集有限

因此上面转化图的FA形式如下：
在这里插入图片描述
|| 因此FA接受字符串s = x₁x₂x₃, …, x_n的充要条件为：

|| 注意事项：

对于FA有两种错误：
第一种是词法错误，某个字符将FA庄转移到了错误状态s_e
第二种是前缀问题，FA耗尽了输出流(即遍历了字符串所有字符后)，停留在了s_e之外的非接受状态。（这说明是前缀）
FA对于每个输入字符都会进行一次状态转移，直至耗尽输入流，因此高效实现的FA，识别器的运行时间于输入字符串的长度成正比

|| 识别一类单词的FA：有环转移图的形式化

以下为所有正整数的识别器转移图：
在这里插入图片描述
以下为其有环简化：

由上图可以看出，该识别器可以识别一类字符串（无符号整数），因此这个FA是在语法范畴上（识别出一个词类）进行识别。