编译原理学习之：正则表达式（regular expression）和非正则语言（non-regular languages）

最新推荐文章于 2025-02-25 10:32:29 发布

暖仔会飞

最新推荐文章于 2025-02-25 10:32:29 发布

阅读量4.9k

点赞数 5

分类专栏：计算模型基础：离散数学文章标签：正则表达式

本文链接：https://blog.csdn.net/qq_42902997/article/details/120804292

版权

计算模型基础：离散数学专栏收录该内容

16 篇文章

订阅专栏

文章目录

回顾子集构造（NFA $\rightarrow$ DFA）
正则语言的闭包结果
如何构造最小的 DFA（指包括最少状态数的 DFA）
- 构造最小化 DFA 举例
正则表达式

回顾子集构造（NFA $\rightarrow$ DFA）

在这里插入图片描述

正则语言的闭包结果

正则语言的 Union 依然是正则语言

$A, B$ 是两个正则语言，他们通过 $\epsilon$ 组成了一个 NFA ，他可以表示为 $A\cup B$ ；我们要在状态开始的时候使用 $\epsilon$ 来连接两个 DFA

正则语言的 concatenate $○$ 操作依然是正则的

在这里插入图片描述

图中下半部分表示第一个语言的某两种状态通过 $\epsilon$ 进行 concate 组成了第二种语言的某种状态；这样组成的新语言依然是正则语言

正则语言的 $k l e e n e s t a r$ 依然是正则语言

在这里插入图片描述

正则语言的其他闭包性质

两个正则语言的 intersection（交集）依然是正则语言
正则语言的补集（complement）依然是正则语言 $A, A^C$
正则语言的差集（difference）依然是正则语言 $\setminus B$
正则语言的取反（reversal）依然是正则语言

如何构造 DFA 的运算算法（构造 DFA 的交、并、补集）

在这里插入图片描述

如何构造最小的 DFA（指包括最少状态数的 DFA）

因为我们无法保证通过某种算法可以得到最小的 DFA，如下图所示，我们不知道他是否为最简 DFA
但是由于 DFA 拥有唯一的起始状态，并且转移函数是固定的，因此我们可以测试两个 DFA 的等价性从而找出最小的 DFA
要构造最小的 DFA 要不断重复以下步骤
- 翻转 NFA
- 确定化结果
- 再翻转
- 再次确定化结果
翻转 NFA 的方式也很简单：
1. 那就是将所有的状态上的线调转方向
2. 将接受（accept）状态节点和初始节点（start）互换

构造最小化 DFA 举例

这是我们要最小化的 NFA, 我们在下面的步骤中通过它得到一个最小的 DFA
第一步： 翻转（1节点和 2 节点的功能互换，原本 1 是初始节点，2是accept 节点，现在调转一下 1 变成了 accept 节点，2 变成了初始节点）
第二步： 通过调转的 NFA 进行确定化得到当前状态下的 determinism 的结果
因为最终状态中 $5, 6$ 包含原来的 $1$ 状态（即 accept 状态），因此， $5, 6$ 应该被标定为出口
第三步 再次调转已经得到的 NFA ； $5, 6$ 变成了起始状态； $4$ 变成了 accept 状态
第四步： 重复第二步的 determinism 得到最后的状态

正则表达式

各种编程语言中几乎都涉及正则表达式
$0 ∪ 1)(0 ∪ 1)(0 ∪ 1)((0 ∪ 1)(0 ∪ 1)(0 ∪ 1))^∗$ 代表一个长度为 3 的倍数的非空字符串
$*$ 运算的优先级高于 concatenate；concatenate 高于 union

正则表达式语法和语义

在这里插入图片描述

正则表达式举例

在这里插入图片描述

正则表达式和自动机（Regular Expression VS. Automata）

构造单个起始状态的 NFA

正则表达式和有限状态的自动机是等价的，而且有限状态机的起始状态只能有一个
在下面的例子中，我们假设每个 NFA 的起始状态只有一个，那么对于一个多起始状态的 NFA $N$ 我们可以表示成若干个 $N^{'}$ 的通过 $\epsilon$ 的并联
这个式子 $\delta^{'}(q,v)$ 中， $q_i$ 代表的就是原本的多个起始状态 $q$ 统一用 $q_i$ + $\epsilon$ 代替；而其他不是起始状态开始的节点则遵循原本的 $\delta$ 转换状态。

正则语言 $\rightarrow$ NFA 举例（单个起始状态）： $a ∪ b)^∗bc$

国外的书籍和课件 是按照这种方式进行构造和转换的

构造单个 accept 状态的 NFA

可以看到下图的 $N$ 中有 3 个终止状态
汇总起始状态和将初始状态分开都同样使用 $\epsilon$
例如下图的例子：
图中的 $\delta^{'}(q,v)$ 代表的就是将状态转换函数分成了两类：
- 如果是原来 accept 状态，那么就添加一个新的状态 $q_f$ 并且把原来所有的 accept 状态都通过 $\epsilon$ 连接过去
- 原来的其他状态则不需要进行调整，维持原本的样子
所以我们看到下图中的三个原本的 accept 状态都通过 $\epsilon$ 连到了新的 “唯一的 accpet” 状态 $q_f$

（兴趣读物：国内课本的方法）通过正则语言构造 NFA

当我们获得一个正则语言，我们如果要构造 NFA（单起始状态的），我们只需要不断重复下面 三个步骤 即可：（国内书籍版本）
- 将 concatenate 操作分成两个串联的部分
- 将 union （|）操作分成两个并联的部分
- 将闭包运算 * 分成第三种情况

正则语言 $\rightarrow$ NFA 举例

在这里插入图片描述

化简 “单个” 起始和 accept 状态的 NFA

上文已经分别介绍了如何构造单个起始状态的 NFA 和单个 accept 状态的 NFA
现在对于中间的状态进行重复地替换（使用正则表达式）以简化 NFA；方法就是把线上的字符用正则表达式来替换；并不断重复这个过程
如下图所示，我们的 NFA 现在已经是 单个起始状态和单个 accpet 状态；弧线上表示的 $R_1,R_2,...$ 都是 正则表达式，假设我们通过化简可以得到下面的两个 NFA 的表示 :
- $R_1 ∪ R_2R_3^∗R_4)^∗R_2R_3^∗$
- $R^*$
  
  通过下面例子来进行演示：假设化简的是下面的例子
首先先把上面的两个 accept 状态的图转换成一个 accept 状态，根据上面的知识
通过正则表达式来替换线上的字符从而实现状态的化简：
再次通过正则表达式来合并中间的步骤
最终把中间状态逐渐换成正则表达式；得到了最简的 NFA
而上述的式子就相当于我们最开始引入的 $R_1 ∪ R_2R_3^∗R_4)^∗R_2R_3^∗$
因此我们容易得到以下替换：