【计算理论】正则语言与有穷状态机

Recitative

已于 2023-11-01 15:48:22 修改

阅读量528

点赞数 1

分类专栏：计算理论文章标签：算法数学建模

于 2023-11-01 15:47:51 首次发布

本文链接：https://blog.csdn.net/qq_44350348/article/details/134162975

版权

计算理论专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

有穷自动机
正则语言
有穷自动机的设计
非确定性
- 等价性证明
正则计算
- 并
- 连接
- 星
- 补
- 交
正则表达式
- 等价性证明
非正则证明
- 引理证明
- 使用泵引理证明非正则
参考

有穷自动机

有穷自动机（finite automaton）是最简单的计算模型（computational model），又叫有穷状态机（finite state machine）；对应马尔科夫链（Markov chain）。这种计算机模型的描述能力和资源极其有限，但却可以完成很多工作。

从直觉上定义一个有穷自动机的话，可以理解为一个拥有初始状态 $q_0$ 的机器，会根据有限种可能的输入，在特定规则下不断改变自己的状态，最终停留在某个/多个中的一个输出/终止状态的计算机。我们可以用一张状态图（state diagram）来表述这样一个有穷自动机。

在这里插入图片描述

严格定义上，有穷状态机包含以下5个部分：

状态集（state set） $Q$ ，包含有限种可能的状态
字母表（alphabet） $\Sigma$ ，包含所有可能的输入符号
转移函数（transition function） $\delta$ ，描述从任意属于 $Q$ 的状态，经 $\Sigma$ 中的输入，映射到 $Q$ 中任意状态的函数，可以用转移表（transition table）来描述，记 $\times \Sigma \to Q$
起始状态（start state） $q_0 \in Q$
接受状态集（accept state set），又称终止状态集（final state set） $\subseteq Q$ ，包含一系列可行的终止状态

即，我们可以使用5元组 $\Sigma, \delta, q_0, F)$ 来描述一个有穷自动机。以上面的状态图为例，其5元组为：

$Q = \{q1, q2, q3\}$
$\Sigma = \{0, 1\}$
$\begin{array}{}\delta = & \begin{array}{c|cc} &0&1\\ \hline q_1 & q_1 & q_2\\ q_2&q_3&q_2\\ q_3&q_2&q_2\end{array}\end{array}$ ，或表述为，对任意输入 $a\in \Sigma$ ，存在 $\delta(q_i, a) = q_{i+1}$
$q_1$
$F=\{q_2\}$

正则语言

设有穷自动机 $\Sigma, \delta, q_0, F)$ ， $w_1w_2\dots w_n$ 为 $\Sigma$ 中字符组成的字符串，若对应的状态序列 $r_0, r_1,\dots,r_n$ 满足：

$r_0 = q_0$ ；
$r_n \in F$
$\delta(r_i, w_{i+1}) = w_{i+1}, i=0,1,\dots,n-1$

则称字符串 $w$ 能够被机器 $M$ 接受。

能够被机器 $M$ 接受的全部字符串组成的集合 $A$ 称为该机器的语言（language），记 $L (M) = A$ 。一个机器可以接受多种字符串，但只能有一个语言。有穷自动机对应的语言为正则语言（regular language）。例如，在前一小节给出的自动机示例，其语言可以写作：
${w|w至少含一个1，且最后一个1后面包含偶数个0\}$

有穷自动机的设计

设计能够接受对应字符串的有穷自动机，可遵循以下步骤：

确定字母表（ $\Sigma$ ）
画出所有可能的状态（Q）
标注初始状态，接受状态（ $q_0, F$ ）
考虑所有状态转移的可能性（ $\delta$ ）

非确定性

如果一个计算，其每步都按唯一方式跟随前一步；或者说，如果一个机器，对给定的符号，只有唯一对应的状态转移，则称这种计算为确定型计算（deterministic computation），否则，称非确定型计算（nondeterministic computation）。

确定型有穷自动机（DFA）与非确定型有穷自动机（NFA）存在若干差别：

DFA对字母表中任意符号只有一个状态转移，而NFA可以对应0个、1个或多个。
DFA中的符号都来自字母表，而NFA中的符号可以是 $\varepsilon$ 或字母表中的任意字符，记 $\Sigma \cup \{\varepsilon\} = \Sigma_\varepsilon$
DFA的计算是线性的，而NFA的计算是树状的，当存在多个转移的时候，NFA会采取分支并行的策略。

每一台NFA都可以转换成等价的DFA，但有些时候构造NFA要比构造等价的DFA简单得多，且需要的状态数更少（更小），更易于理解。

等价性证明

如果两台机器能够识别同样的语言，则称这两台机器等价。

待证：设 $\Sigma, \delta, q_0, F)$ 为识别语言 $A$ 的NFA，构造等价的DFA

证明：首先定义 $\mathcal P(Q)$ 为 $Q$ 中状态的子集组成的集合，即待构造DFA中的一个状态，相当于 $Q$ 中的一个状态子集（如果觉得抽象，可以参考下文正则计算中，并计算的DFA方法证明）。待构造DFA中的状态记为 $\in Q'$ 。

定义 $E (R)$ 为从 $R$ 的任意成员出发，可经 $\varepsilon$ 到达的状态集合，即无输入可抵达的状态。构造DFA $\Sigma, \delta', q_0', F')$

$\mathcal P(Q)$
$\Sigma = \Sigma$
$\forall R\in Q', a\in \Sigma,有 \delta'(R, a) = \{q|q = \delta(r, a)且q \in Q, r \in R\}$
$q_0' = E(\{q_0\})$
$F' = \{R|R包含N的一个可接受状态\}$

由该证明可推出，如果一个语言是正则的，当且仅当一个NFA可以接受该语言，因为NFA可以等价为DFA，而每个语言都有一台能够接受它的DFA。

正则计算

简记一下正则运算的证明。主要推导5种：

并： $\cup B = \{x|x\in A 或 X \in B\}$
连接： $\circ B = \{xy|x\in A且x\in B\}$
星： $A^* = \{x_1x_2\dots x_k|k\ge0且x_i\in A\}$
补：$\bar A = {x | x\notin A} $
交： $\cap B = \{x|x\in A且x \in B\}$

5种运算全部封闭，即运算的结果也是正则语言。因为是证明能够识别对应语言的机器 $\exist$ ，所以最好用构造性证明。

并

待证：已知语言 $A, B$ 是正则语言，证明 $\cup B$ 为正则语言

证明（DFA）：构造满足条件的自动机，其每个状态 $r$ 都是 $A$ 和 $B$ 的状态组成的数对 $r_1, r_2)$

$\{(r_1, r_2)|r_1 \in A 且 r_2 \in B\}$ ， $Q$ 相当于集合 $Q_1, Q_2$ 的笛卡尔积，可记为 $Q_1 \times Q_2$
$\Sigma = \Sigma_1 + \Sigma_2$
$q = (q_{1}, q_{2})$
$\{(r_1, r_2) | r_1\in F_1或r_2 \in F_2\}$
$\delta((r_{1,i}, r_{2,i}),a) = (\delta(r_{1,i}, a), \delta(r_{2,i}, a)) = (r_{1, i+1}, r_{2, i+1})$

笛卡尔积的结果，可以理解为两个集合中的元素，所有可能的组合

证明（NFA）：

$\{q_0\} \cup Q_1 \cup Q_2$ ， $q_0$ 通过 $\varepsilon$ 迁移到 $M_1,M_2$ 的初始状态
$\Sigma = \Sigma_1 \cup \Sigma_2$
$q_0$
$F_1 \cup F_2$
$\delta(q, a) = \left\{\begin{array}{}\delta_1(q, a) & q \in Q_1\\ \delta_2(q, a) & q \in Q_2\\ \{q_1, q_2\} & q=q_0且a = \varepsilon\\ \empty & q = q_0且a\ne \varepsilon\end{array}\right.$

连接

待证：正则语言在连接运算下封闭

$Q_1 \cup Q_2$
$\Sigma = \Sigma_1 \cup \Sigma_2$
$q_1$
$F = F_2$
$\delta(q, a) = \left\{\begin{array}{}\delta_1(q, a) & q \in Q_1且q\notin F_1\\ \delta_1(q, a) & q \in F_1且a \ne \varepsilon\\ \delta_2(q, a) \cup\{q_2\} & q \in F_1且a = \varepsilon\\ \delta_2(q, a) & q \in Q_2\\\end{array}\right.$

星

待证：正则语言在星运算下封闭

$Q_1 \cup \{q_0\}$
$\Sigma = \Sigma_1$
$q_0$
$F_1 \cup \{q_0\}$
$\delta(q, a) = \left\{\begin{array}{}\delta_1(q, a) & q \in Q_1且q\notin F_1\\ \delta_1(q, a) & q \in F_1且a \ne \varepsilon\\ \delta_2(q, a) \cup\{q_1\} & q \in F_1且a = \varepsilon\\ \{q_1\} & q \in q_0且a = \varepsilon\\ \empty & q =q_0且a \ne \varepsilon\\\end{array}\right.$

补

待证：已知 $\Sigma, \delta, q_0, F)$ 识别语言A，证明存在机器识别 $\bar A$

$\mathcal P(Q)$ .
$\Sigma$
$q_0' = \mathcal P(q)$ ，因为也可能从 $q_0$ 出发但和N的状态迁移不一致。
$\mathcal P(q)$ ，因为任何状态都可能是接受状态
$\delta'(R, a) = \{q|q \notin \delta(r,a), q\in Q, r\in R\}$

如果不好理解，不妨想象一个可以接受所有 $\Sigma$ 中的字符组成的字符串的全连接网络NFA，每层包含对应 $Q$ 中状态的节点，初始状态 $q_0$ 通过 $\varepsilon$ 迁移到隐层1，隐层数量为可能的最大字符长度。

然后从该网络中剔除状态机N对应的连线，就得到 $\bar A$ 机的转移函数。

交

待证：正则语言的交运算是封闭的

证明：已知 $\bar A, A\cup B$ 都是封闭的，则 $\bar A \cup \bar B$ 封闭，进而得到 $\overline{(\bar A \cup \bar B)} = A \cap B$ 封闭。

正则表达式

证明部分不用想太多，关注正则表达式和自动机怎么相互转换即可。

使用正则运算符来构造语言的表达式称为正则表达式，正则表达式的值是语言。

定义：R为正则表达式的条件：

$a\in \Sigma$
$\varepsilon$
$\empty$
$R$ 为正则运算的结果：主要是 $\cup, \circ, *$

上面的定义中， $R=\varepsilon$ 代表只包含空串的语言， $\empty$ 代表不包含任何字符串的语言。由该定义可以得到两个恒等式： $R\cup\empty = R, R\circ \varepsilon = R$

如果省略括号，则运算的优先级为：星、连接、并（最好还是加上括号）

等价性证明

任何正则表达式都能够转换成能够识别对应语言的自动机，反之亦然。

待证：一个语言是正则的，当且仅当可以使用正则表达式描述该语言。

证明：该证明是充要证明，需要证两个方向。

如果一个语言可以使用正则表达式描述，则该语言正则（如何将表达式转换成自动机）

考察正则表达式中的各种情况（构造性证明）：
1. $R = a$ ，此时可以构建一个双状态NFA来描述这个状态机
2. $\varepsilon$
3. $\empty$
4. 前三条成立，且其他类型的语言可以描述为前三种语言的正则运算，得证。
如果一个语言是正则的，则可以使用正则表达式描述该语言
1. 如果语言是正则的，则一定存在一台DFA能够接受该语言（定义证）
2. DFA能够转成等价的正则表达式。
  
  定义广义非确定型有穷自动机（GNFA）为转移箭头为正则表达式的NFA。
  
  遵循以下步骤，将DFA转换为GNFA：
  1. 添加新的起始状态和新的接受状态；
  2. 从新的起始状态连接 $\varepsilon$ 到原来的起始状态，从原来的接受状态连接 $\varepsilon$ 到新的接受状态。
  3. 将多个标记的箭头改为使用 $\cup$ 连接，没有连接的状态之间使用 $\empty$ 连接
3. GNFA能够转换为正则表达式。
  
  对任意状态数 $> 2$ 的GNFA（GNFA必须包含一个起始和一个终止），减少起始和接受之外的状态，然后修改剩下的箭头上的正则表达式，从而从 $k$ 状态数的GNFA，构造出 $k - 1$ 状态数的GNFA。
  
  定义GNFA为一个5元组 $\Sigma, \delta, q_{start}, q_{accept}$ ：
  1. Q为有穷状态集
  2. $\Sigma$ 为字母表
  3. $\delta:(Q-\{q_{accept}\})\times(Q - \{q_{start}\})\to\mathcal R$
  4. $q_{start}$
  5. $q_{accept}$
  使用归纳法证明断言：对任意GNFA $G$ ，上述转换得到的表达式等价于 $G$
  1. 对 $k = 2$ ， $G$ 只有两个状态，可能只有一个箭头，箭头上的表达式描述了所有能够被接受的字符串，得到该表达式等价于G
  2. 设对 $k - 1$ 为真，则对 $k$ ，设剔除一个状态后的GNFA为 $G^{'}$ ，对任意接受分支，G的状态序列为：
    $q_{start},q_1,q_2,\dots,q_{accept}$
    如果被剔除的状态 $q_{rip}$ 不在序列中， $G^{'}$ 一定可以接受这个运算；如果 $q_{rip}$ 在分支中，设 $q_{rip}$ 的位置为 $q_i, q_{rip},q_j$ ，则可以得到一个新的正则表达式描述剔除该状态后的 $q_i, q_j$ （相当于 $k = 2$ ）。归纳成立。
4. 综上，正则语言存在一台能够接受该语言的DFA，这个DFA可以转换为一台GNFA，进而转换为正则表达式。

非正则证明

通常使用泵引理（pumping lemma）来证明非正则，泵引理指出所有的正则语言都有一种特殊的性质，如果能够反证某个语言不具有该性质，则可以证明该语言不是正则的。

引理：若 $A$ 为正则语言，则存在数 $p$ ，称泵长度（pumping length），使得A中任意长度不小于 $p$ 的字符串 $s$ ，都可以被分为3段， $s = x yz$ ，且满足：

$\forall i\ge0, xy^iz\in A$
$∣ y ∣ > 0$
$|xy|\le p$

易知，若没有条件2，定理显然成立。因为若 $y$ 为空串，则条件1可以任意划分，且对任意划分，都可以满足条件3。

这种找到可以重复任意次的字串的过程称为抽取。

引理证明

待证：设 $\Sigma, \delta, q_1, F)$ 为一台识别A的DFA， $p$ 为 $M$ 的状态数。试证泵引理成立。

第一，若 $A$ 中不存在长度不小于 $p$ 的字符串，定理显然成立。因为泵引理只对长度大于 $p$ 的串要求了条件。

第二，若 $s\in A$ 不小于 $p$ ，设 $∣ s ∣ = n$ ，则 $s$ 对应的状态序列长度为 $n + 1$ ，因为 $\ge p$ ，因此状态序列中一定存在重复的状态（因为状态数量大于状态类别总数，总有某个状态被访问多次）。如下图所示，设第一个重复的状态为 $q_i$ ，则可据此将串划分为 $x yz$ 三部分

在这里插入图片描述

因为序列 $y$ 会将状态从 $q_i$ 迁移回 $q_i$ ，因此对任意 $y^i, i\ge 0$ ， $xy^iz$ 都能够被接受；且 $y$ 显然至少为1；由于 $q_i$ 是第一个重复的状态，一定有 $\le p$ 。

使用泵引理证明非正则

如果需要证明语言 $B$ 不是正则的，首先需要假设该语言正则，然后根据泵引理，找到一个不能被抽取的，长度不小于 $p$ 的字符串 $s$ ，就可以根据反证法证明。

常见的引发悖论的思路：

如果语言中存在不同字符、相同数量，考虑造成数量差异
如果语言中存在先后顺序，考虑造成逆序

例1：试证语言 $\{0^n 1^n|n\ge0\}$ 不是正则语言。

证明：设 $\{0^n 1^n|n\ge0\}$ 正则，令 $p$ 为泵长度，可选 $0^p 1^p$ 为长度一定大于 $p$ 的串。则 $y$ 串可能有三种情况：

$y$ 只包含0，则 $xy^iz$ 会导致01个数不等，不成立
$y$ 只包含1，同理不成立
$y$ 包含0和1， $xy^iz$ 会打乱01的顺序，不成立

综上， $B$ 不满足泵引理，不是正则语言

简化证明：因为条件3要求 $∣ x y ∣ < p$ ，因此对串 $0^p 1^p$ ，后两种情况会使得条件3不成立，可以简化掉。

因为已知变量只有 $p$ ，且有 $|s|\ge p$ 的要求，一般都会围绕 $p$ 展开证明。

例2：试证 $C=\{w|w中0和1个数相同\}$ 不是正则语言。

证明：本例是使用条件3证非正则的范例，仍然可以举前例的 $0^q1^q$ ，由于条件3的存在， $y$ 只能选择包含0的情况，此时 $xy^iz$ 会使得01个数不等，因此 $C$ 不是正则语言。

另一种证明思路是，已知前例 $B$ 非正则，假设 $C$ 正则，则 $\cap 0^*1^*$ 也应该正则，因为 $0^*1^*=0^* \circ 1^*$ ，根据正则运算规律，两者求交应该正则。然而两者求交的结果为 $B$ ， $B$ 是非正则的，存在矛盾，故得 $C$ 非正则。

例3：试证 $\{ww|w\in\{0,1\}^*\}$ 非正则。

证明： $F$ 为任意长度、每位可0可1的串。这种前后连接的，很大概率是要利用条件3。假设F正则，设串 $s = 10^p10^p$ ，根据条件3， $x y$ 只能在前半序列中选择，分类讨论：

$\varepsilon$ ，此时 $y = 10^*$ ， $xy^iz = (10^*)^i0^{p-*}10^p \notin F$ ，不满足条件1
$\ne \varepsilon$ ，此时 $y$ 只包含0， $xy^iz = 1(0^*)^i0^{p - *}10^p \notin F$ ，不满足条件1

综上， $F$ 非正则。

例4：试证 $\{1^{n^2}|n \ge 0\}$ 非正则。

证明：设 $D$ 正则，串 $s = 1^{q^2}$ ，已知 $n^2 = 0, 1, 4, 9, 16, 25, \dots$ ；

根据条件3， $|xy|\le p$ ，故 $\le p$ ，则 $|xy^2z| \le p^2 + p < p^2 + 2p + 1 < (p + 1)^2$ ，又因 $∣ y ∣ > 0$ ， $xy^2z| > p^2$ ，因此 $|xy^2z| \notin n^2$ ， $D$ 非正则。