【学习笔记】自动机理论、语言和计算导论（一、二）

最新推荐文章于 2024-03-25 07:45:09 发布

子鱼inf_lyceum

最新推荐文章于 2024-03-25 07:45:09 发布

阅读量1.4k

点赞数

分类专栏：数理逻辑和自动机理论笔记文章标签：确定性有穷自动机非确定性有穷自动机正则表达式算法

本文链接：https://blog.csdn.net/qq_36308895/article/details/115107504

版权

数理逻辑和自动机理论笔记专栏收录该内容

5 篇文章 3 订阅

订阅专栏

Content

- 自动机理论的中心概念
有穷自动机

自动机理论的中心概念

有穷自动机 有穷自动机涉及一些状态和当响应输入时在状态之间的转移。用来构造许多不同种类的软件，例如包括编译器的词法分析部件以及电路与协议正确性的验证系统。
正则表达式 这是描述有穷自动机所表示的相同模式的结构记号。用在许多常见类型的软件中，例如包括查找文本模式或文件名模式的工具。
上下文无关文法 这是描述程序设计语言的结构以及相关的串集合的重要记号；用来构造编译器的语法分析部件。
图灵机 这是为真实计算机的能力建立模型的自动机。图灵机允许研究可判定性，即计算机能做什么或不能做什么的问题。也允许区分易解问题（即能在多项式时间内解决的问题）与难解问题（即不能在多项式时间内解决的问题）。

字母表 是符号的有穷非空集合，常用 $\Sigma$ 表示。
串 (单词) 是从某字母表中选择的有穷序列。出现0次符号的串称为空串，记作 $\varepsilon$ 。串的符号数称为长度，记作 $∣ w ∣$ 。
字母表的幂 $\Sigma^k$ 表示 $\Sigma$ 中长度为 $k$ 的串集合。 $\Sigma^*$ 表示 $\Sigma$ 中所有串集合。 $\Sigma^+$ 表示 $\Sigma$ 中非空串集合。
串的连接 例： $x=a_1a_2\dots a_i, y=b_1b_2\dots b_j, xy=a_1a_2\dots a_ib_1b_2\dots b_j$ 。
语言 $L\subseteq\Sigma^*$ ，则 $L$ 是 $\Sigma$ 上的语言。
问题给定 $\Sigma^*$ 中的一个串 $w$ ，判定 $w$ 是否属于 $L$ 。

有穷自动机

本章核心思想总结：
DFA是描述有穷自动机的基本方式，引入非确定型和空串转移扩展功能可以简化设计，但功能等价，可以用固定算法把（ $\varepsilon$ -）NFA编译成DFA再执行。

确定性有穷自动机

一个确定性有穷自动机DFA可表示成
$\Sigma, \delta, q_0, F)$ 其中

$Q$ 是一个有穷的状态集合。
$\Sigma$ 是一个有穷的输入符号集合。
$\delta$ 是一个转移函数，以一个状态和一个输入符号作为变量，返回一个状态。在非形式化表示自动机的图中，用状态之间的箭弧和箭弧上的标记来表示 $\delta$ 。如果 $q$ 是一个状态， $a$ 是一个输入符号，则 $\delta(q,a)$ 是这样的状态 $p$ ，使得从 $p$ 到 $q$ 有带标记 $a$ 的箭弧。
一个初始状态 $q_0$ ，是 $Q$ 中状态之一。
一个终结状态或接收状态的集合 $F$ 。 $F\subseteq Q$

DFA如何处理串 DFA如何决定是否"接受"输入符号序列。DFA的"语言"是这个DFA接受的所有的串的集合。假设 $a_1a_2\dots a_n$ 是输入符号序列。让这个DFA从初始状态 $q_0$ 开始运行。查询转移函数 $\delta$ ，比如说 $\delta(q_0, a_1)=q_1$ ，以找出DFA $A$ 在处理了第一个输入符号 $a_1$ 之后进入的状态。处理下一个输入符号 $a_2$ ，求 $\delta(q_1，a_2)$ 的值，假设这个状态是 $q_2$ 。以这种方式继续下去，找出状态 $q_3, q_4, \dots , q_n$ ，使得对每个 $i$ ， $\delta(q_{i-1},a_1)=q_i$ 。如果 $q_n$ 属于 $F$ ，则接受输入 $a_1a_2\dots a_n$ , 否则就"拒绝"。

DFA表示方法

转移图
a) 对 $Q$ 中每个状态, 存在一个顶点.
b) 对 $Q$ 中每个状态 $q$ 和 $\Sigma$ 中每个输入符号 $a$ , 设 $\delta(q, a)=p$ . 于是转移图有从顶点 $q$ 到顶点 $p$ 的带 $a$ 标记的箭弧. 如果有几个输入符号都导致从 $q$ 到 $p$ 的转移, 则转移图有一个由这些符号列表标记的箭弧.
c) 有一个进入初始状态 $q_0$ 的带Start标记的箭弧. 这个箭弧没有任何出发顶点.
d) 对应于接受状态(属于 $F$ 的那些状态)的顶点用双圆圈标记. 不属于 $F$ 的状态用单圆圈.
转移表
转移表是习惯上对像 $\delta$ 这样有两个变量和一个返回值的函数的表格表示。这个表的各行对应着状态，各列对应着输入。在状态 $q$ 对应的行和输入 $a$ 对应的列这个位置上的项是状态 $\delta(q, a)$ 。

把转移函数扩展到串
扩展转移函数描述从任何状态开始读任何序列时所发生的事情。由 $\delta$ 扩展出 $\hat{\delta}$ ：接收状态 $q$ 和串 $w$ ，返回状态 $p$ ， $p$ 是当自动机从 $q$ 开始处理输入序列 $w$ 时所到达的状态。通过对输入串的长度进行归纳来定义 $\hat{\delta}$ 如下：
基础： $\hat{\delta}(q, \varepsilon)=q$ ；
归纳：假设 $w$ 是形如 $x a$ 的串，也就是说， $a$ 是 $w$ 的结尾符号。于是 $\hat{\delta}(q, w)=\delta(\hat{\delta}(q, x), a)$ 。

例子：设计一个DFA以接受语言 $L=\{w丨w同时有偶数个0和偶数个1\}$
这个DFA的状态的任务是同时数0和1的个数，但是需要模2来计数。因此有4个状态，这4个状态可以给出下列解释∶
$q_0$ ∶ 迄今为止看到的0的个数和1的个数都是偶数。
$q_1$ ∶ 迄今为止看到的0的个数是偶数而1的个数是奇数。
$q_2$ ∶ 迄今为止看到的1的个数是偶数而0的个数是奇数。
$q_3$ ∶ 迄今为止看到的0的个数和1的个数都是奇数。
状态 $q_0$ 既是初始状态也是惟一的接受状态。
L的DFA是 $=(\{q_0,q_1,q_2,q_3\}, \{0,1\}, \delta, q_0, \{q_0\})$

DFA的语言 $L(A)=\{w | \hat{\delta}(q_0, w)\in F\}$ ，即语言 $L (A)$ 是让初始状态 $q_0$ 通向接收状态之一的串 $w$ 的集合。如果对某个DFA $A$ 来说 $L$ 是 $L (A)$ ，称 $L$ 为正则语言。

非确定型有穷自动机

一个非确定性有穷自动机NFA可表示成
$\Sigma, \delta, q_0, F)$ 其中

$Q$ 是一个有穷的状态集合。
$\Sigma$ 是一个有穷的输入符号集合。
$\delta$ 是一个转移函数，以一个状态和一个输入符号作为变量，返回一个 $Q$ 中状态的子集合。
一个初始状态 $q_0$ ，是 $Q$ 中状态之一。
一个终结状态或接收状态的集合 $F$ 。 $F\subseteq Q$

在这里插入图片描述

扩展转移函数
基础： $\hat{\delta}(q, \varepsilon)=q$ ；
归纳：假设 $w$ 是形如 $x a$ 的串， $\hat{\delta}(q, x)=\{p_1, p_2,\dots, p_k\}$ 。设 $\bigcup_{i=1}^k \delta(p_i, a)=\{r_1, r_2,\dots, r_m\}$ 则 $\hat{\delta}(q, w)=\{r_1, r_2,\dots, r_m\}$ 。

NFA的语言 $L(A)=\{w | \hat{\delta}(q_0, w)\cap F\neq \varnothing \}$ ，即 $L (A)$ 是 $\Sigma^*$ 中使得 $\hat{\delta}(q_0, w)$ 至少包含一个接收状态的串 $w$ 的集合。

DFA和NFA的等价性 子集构造：用一个自动机的状态和转移来描述另一个自动机，却不知道前者的具体情况。 $D$ 的部件构造：
从一个NFA $N=(Q_N, \Sigma, \delta_N, q_0, F_N)$ 开始，目标是描述一个DFA $D=(Q_D, \Sigma, \delta_D, \{q_0\}, F_D)$ ，使得 $L (D) = L (N)$ 。

$Q_D$ 是 $Q_N$ 的子集的集合(幂集)，可以丢弃不可达状态，因此 $D$ 的状态数远小于 $2^n$ 。
$F_D$ 是使得 $S\cup F_N\neq\varnothing$ 的 $Q_N$ 的子集合 $S$ 的集合。即 $F_D$ 是所有至少含有一个 $N$ 的接收状态集合的集合。
对于每个集合 $S\subseteq Q_N$ 以及 $a\in\Sigma$ ， $\delta_D(S, a)=\bigcup_{p\in S}\delta_N(p, a)$ 即为了计算 $\delta_D(S, a)$ ，检查 $S$ 中所有的状态 $p$ ，看看 $N$ 在输入 $a$ 上从 $p$ 进入哪些状态，取所有这些状态的并集。

在这里插入图片描述

构造的合理性的证明：对 $w$ 进行归纳。 $\hat\delta_D(\{q_0\}, w)=\hat\delta_N(q_0, w)$  基础∶设 $l w l = 0$ ，即 $w=\varepsilon$ 。由定义， $\hat\delta_D(\{q_0\}, \varepsilon)$ 和 $\hat\delta_N(q_0, \varepsilon)$ 都是 ${q_0\}$ 。
归纳：设 $w$ 长度为 $n + 1$ ，假设命题对长度 $n$ 成立。把 $w$ 分解成 $w = x a$ ，根据归纳假设， $\hat\delta_D(\{q_0\}, x)=\hat\delta_N(q_0, x)$ 。设这两个 $N$ 的状态集合都是 $\{p_1, p_2,\dots, p_k\}$ 。
NFA的 $\hat\delta$ 的定义的归纳部分说明： $\hat\delta_N(q_0, w)=\bigcup_{i=1}^k\delta_N(p_i, a)$ 另一方面，子集构造说明：
$\delta_D(\{p_1, p_2,\dots, p_k\}, a)=\bigcup_{i=1}^k\delta_N(p_i, a)$ 并由事实 $\hat{\delta}_D(\{q_0\}, x)=\{p_1, p_2,\dots, p_k\}$ 得
$\hat{\delta}_D(\{q_0\}, w)=\delta_D(\hat{\delta}_D(\{q_0\}, x), a)=\delta_D(\{p_1, p_2,\dots, p_k\}, a)=\bigcup_{i=1}^k\delta_N(p_i, a)$ 由此原式得证。当注意到 $D$ 和 $N$ 都接受 $w$ 当且仅当 $\hat\delta_D(\{q_0\}, w)$ 或 $\hat\delta_N(q_0, w)$ 分别包含一个 $F_N$ 中的状态时，就得到了 $L (D) = L (N)$ 的完整证明。

一个语言 $L$ 被某个DFA接受，当且仅当 $L$ 被某个NFA接受。

例子：文本搜索的NFA

设计一个识别单词web和ebay的出现的NFA。
在这里插入图片描述
状态1是初始状态，符号 $\Sigma$ 表示所有可打印ASCII的字符，状态2-4识别web，5-8识别ebay。
NFA的实现有两种主要选择∶
1.写一个程序来模拟这个NFA，计算出读每个输入符号后所处的状态的集合。
2. 用子集构造把NFA转化成等价的DFA。然后直接模拟这个DFA。在这里插入图片描述

带 $\varepsilon$ 转移的有穷自动机

扩展功能：描述“可有可无”的输入。
在这里插入图片描述
一个扩展的非确定性有穷自动机 $\varepsilon$ -NFA可表示成
$\Sigma, \delta, q_0, F)$ 其中 $\delta$ 现在是有下列变量的函数∶ 
1.Q中一个状态。 
2.、 $\Sigma\cup\{\varepsilon\}$ 中一个元素，也就是说，要么是输入符号，要么是 $\varepsilon$ 符号。要求空串符号 $\varepsilon$ 不是字 母表 $\Sigma$ 中的元素，所以不会导致混乱。

$\varepsilon$ 闭包 顺着所有从状态 $q$ 出发带 $\varepsilon$ 标记的转移来求状态 $q$ 的 $\varepsilon$ 闭包。
递归地定义闭包 $\text{ECLOSE}(q)$ ：
基础：状态q属于 $\text{ECLOSE}(q)$ 。
归纳：如果p属于 $\text{ECLOSE}(q)$ ，并且有从状态 $p$ 到状态 $r$ 带 $\varepsilon$ 标记的转移，则 $r$ 属于 $\text{ECLOSE}(q)$ 。
更谁确地说，如果 $\delta$ 是所讨论的 $\varepsilon$ -NFA的转移函数，且 $p$ 属于 $\text{ECLOSE}(q)$ ，则 $\text{ECLOSE}(q)$ 也包含所有属于 $\delta(p, \varepsilon)$ 的状态。
状态集合 $S$ 的 $\varepsilon$ 闭包： $\text{ECLOSE}(S)=\bigcup_{q\in S}\text{ECLOSE}(q)$

扩展转移函数
基础： $\hat{\delta}(q, \varepsilon)=\text{ECLOSE}(q)$ ；
归纳∶设 $w$ 形如 $x a$ 。注意， $a$ 属于 $\Sigma$ ； $a$ 不能是 $\varepsilon$ ， $\varepsilon$ 不属于 $\Sigma$ 。计算 $\hat\delta(q, w)$ 如下∶

设 $\hat\delta(q, x)$ 为 $\{p_1, p_2,\dots, p_k\}$ 。也就是说，这些 $p_i$ 是从 $q$ 顺着标记为 $x$ 的路径可达的所有状态。 这条路径可能以一个或多个带 $\varepsilon$ 标记的转移来结尾，也可能有其他的 $\varepsilon$ 转移。
设 $\bigcup_{i=1}^k \delta(p_i, a)$ 为 $\{r_1, r_2,\dots,r_m\}$ 。也就是说，顺着带 $x$ 标记的路径从 $q$ 到达一些状态，遵循 所有带 $a$ 标记的从这些状态发出的转移。这些 $r_j$ 是顺着带 $w$ 标记的路径从 $q$ 可达的一些状态。顺着下面步骤（3）中的标记 $\varepsilon$ 的箭弧，从这些 $r_j$ 求出其他的可达的状态。
$\hat\delta(q, w)=\bigcup_{j=1}^m \text{ECLOSE}(r_j)$ 。这个附加的闭包步骤包含了所有从 $q$ 出发带 $w$ 标记的路径，考虑到了在最后的"实"符号 $a$ 上转移后，存在其他带 $\varepsilon$ 标记的箭弧可以遵循的可能性。

消除 $\varepsilon$ 转移 （转化成DFA）
给定 $\varepsilon$ -NFA $E=(Q_E, \Sigma, \delta_E, q_0, F_E)$ 开始，等价DFA $D=(Q_D, \Sigma, \delta_D, \{q_0\}, F_D)$ ，使得 $L (D) = L (E)$ 。

$Q_D$ 是 $Q_E$ 的幂集。D的所有可达状态都是 $Q_E$ 的 $\varepsilon$ 闭子 集，也就是说，这些集合 $S\subseteq Q_E$ 使得 $\text{ECLOSE}(S)$ 。换句话说，状态 $S$ 的 $\varepsilon$ 闭集就是使得从 $S$ 中状态之一出发的任意 $\varepsilon$ 转移都导向还是属于 $S$ 的状态的集合。注意， $\varnothing$ 是 $\varepsilon$ 闭集。
$\delta_D= \text{ECLOSE}(q_0)$ ，即 $D$ 的初始状态是对仅由 $E$ 的初始状态构成的集合求闭包得到的。
$F_D$ 是使得 $S\cup F_E\neq\varnothing$ 的 $Q_N$ 的子集合 $S$ 的集合。即 $F_D$ 是所有至少含有一个 $E$ 的接收状态集合的集合。
对于每个集合 $S\subseteq Q_N$ 以及 $a\in\Sigma$ ，计算 $\delta_D(S, a)$ 的方法如下：
- 设 $S=\{p_1, p_2,\dots, p_k\}$ 。
- 计算 $\bigcup_{i=1}^k \delta_E(p_i, a)$ ，设为 $\{r_1, r_2,\dots,r_m\}$ 。
- $\delta_D(S, a)=\bigcup_{j=1}^m \text{ECLOSE}(r_j)$

在这里插入图片描述

一个语言 $L$ 被某个 $\varepsilon$ -NFA接受，当且仅当 $L$ 被某个DFA接受。
证明类似NFA，略

子鱼inf_lyceum

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】自动机理论、语言和计算导论（一、二）

Content自动机理论的中心概念自动机理论的中心概念有穷自动机有穷自动机涉及一些状态和当响应输入时在状态之间的转移。用来构造许多不同种类的软件，例如包括编译器的词法分析部件以及电路与协议正确性的验证系统。正则表达式这是描述有穷自动机所表示的相同模式的结构记号。用在许多常见类型的软件中，例如包括查找文本模式或文件名模式的工具。上下文无关文法这是描述程序设计语言的结构以及相关的串集合的重要记号；用来构造编译器的语法分析部件。图灵机这是为真实计算机的能力建立模型的自动机。图灵机允许研究可判定性
复制链接

扫一扫