计算理论基础：1、自动机与语言

lsslcj

已于 2024-03-25 09:51:31 修改

阅读量1.5k

点赞数 63

分类专栏：计算理论基础文章标签：算法抽象代数

于 2024-03-08 08:00:00 首次发布

本文链接：https://blog.csdn.net/shiki217_/article/details/136546886

版权

计算理论基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

计算理论基础

NP问题：可以被快速验证的问题

P问题：可以被高效计算的问题(在 $n^{O(1)}$ 的时间内)

1.正则语言

正则语言：一些不需要内存就可以解决的问题（可以被有限自动机解决的问题）

1.1 有限自动机(finite automaton)

$L$ 的上界：证明 $L$ 是可以在时间 $T (n)$ 内解决的。

$L$ 的下界：证明 $L$ 是不可能在时间 $T (n)$ 内解决。

例1.1：自动门(门内和门外两个区域)，有两个状态(开、关)，

输入情况：

	front	rear	both	neither
front	√	×	√	×
rear	×	√	√	×

例1.2： $L=\{\omega \in\{0,1\}^* ,\omega=\omega_1\omega_2\cdots\omega_n,\omega_n=0\}$ ，可以用有限自动机解决。

$Q=\{q_0,q_1\},\sum=\{0,1\}，\delta:Q\times\sum\rightarrow Q$ 如下表所示

	0	1
$q_0$	$q_0$	$q_1$
$q_1$	$q_0$	$q_1$

例1.3： $L=\{\omega\in\{0,1\}^*,\omega=\omega_1\omega_2 \cdots \omega_n,\omega_n=2\cdot\omega_{n-1}+2^2\cdot\omega_{n-2}+\cdots ☰\ 0\ mod3\}$ (读一个二进制数，从高往低读，判断是否模3)

$Def\ 2.1$ 有限自动机：一个有限自动机是一个五元组 $(Q,\sum,\delta,q_0,F)$

$Q$ 是一个有限集(状态集合)
$\sum$ 是一个字母表
$\delta:Q\times\sum\rightarrow Q$ 是转移函数
$q_0$ ：初始状态
$F$ ：接收状态， $F\subseteq Q$ ，可以是空集

$Def\ 2.2$ 接收(accept)： $M=(Q,\sum,\delta,q_0,F)$ ,令 $M$ 是一个有限自动机，令 $w=w_1\cdots w_n$ 是一个字符串，有 $w_i\in\sum$ ,若 $\exists$ 一系列状态 $r_0,r_1,\cdots,r_n\in Q$ ,有：

$r_0 =q_0$
$\delta(r_i,w_{i+1})=r_{i+1}, i =0,1,2,\cdots,n-1$
$r_n \in F$

则称 $M$ 接收 $w$

$Def\ 2.3$ 可识别： $L$ 是 $M$ 可接受的一系列字符串(strings)，我们就称 $L$ 是 $M$ 的语言，记为 $L (M) = L$ ,称 $M$ 可识别(判定、接收) $L$ ，如果 $M$ 不接受任何字符串，则称它接收的语言为空语言(the empty language)。

例1.4： $L=\{\omega\in\{0,1\}^*,\omega=\omega_1\omega_2\cdots\omega_n,\omega_1\neq\omega_n\}$

$q_1,q_3$ 是可接收的,分支可归约到例二的情况。

例1.5：回文数问题， $L=\{\omega \in \{0,1\}^*,\omega^R=\omega\}$

无法用有限自动机解决

$Def\ 2.4$ 正则语言： $L\subseteq \sum^*$ 是正则语言，若存在有限自动机接收 $L$

$Let\ A,B\subseteq \sum^*,Define$

(union) $A\cup B=\{x\in\sum^*,x\in A \ or\ x\in B \}$
(concatenation) $A\circ B\ or\ AB=\{xy:x\in A,y\in B\}$
(start) $A^*={x_1x_2\cdots x_k,k\ge0,x_1,x_2,\cdots,x_k\in A}$

例：
${\small\sum}=\{0,1\}\\ A=\{\epsilon,0,00,000,\cdots\}\\ B=\{\epsilon,1,11,111,\cdots\}\\ AB=\{0^i1^j,i,j>0\}\\ A^*=A\\ B^*=B\\ (AB)^*=\small {\sum}^*$
$Thm\ 2.5$ 如果 $A_1,A_2$ 是正则语言，那么 $A_1\cup A_2$ 是正则语言

$P roo f$ 若 $M_1=(Q_1,\sum,\delta_1,q_1,F_1)$ 接收 $A_1$ , $M_2=(Q_2,\sum,\delta_2,q_2,F_2)$ 接收 $A_2$ ,构造一个有限自动机 $M$ 来接收 $A_1\cup A_2$ ,其中 $M=(Q,\sum,\delta,q_0,F)$

$Q=Q_1\times Q_2=\{(r_1,r_2):r_1\in Q_1,r_2\in Q_2\}$
$\delta:Q\times\sum \rightarrow$ 定义为 $\forall(r_1,r_2)\in Q, a\in\sum,$ 有 $\delta((r_1,r_2),a)=(\delta_1(r_1,a),\delta_2(r_2,a))$
$q_0=(q_1,q_2)$
$F=\{(r_1,r_2):r_1\in F_1 \ or \ r_2\in F_2\}$

类似将

or改为and，就识别了 $A_1\cap A_2$

$Thm\ 2.6$ 若 $A_1,A_2$ 是正则语言，则 $A_1A_2$ 也是正则语言。

$(deterministic\ finite\ automaton)$ ：确定有限自动机

$NFA(nondeterministic\ finite\ automaton)$ ：不确定有限自动机，转移的情况时不确定的,最终可能接收，可能拒绝，但只要有一条路径接收，就接收了。

1.2 非确定性

$Def\ 2.7$ 非确定有限自动机：一个 $NF A$ 是一个五元组 $(Q,\sum,\delta,q_0,F)$ ,有如下定义：

$Q$ 是一个有限状态集合
$\sum$ 是一个字符表
$\delta:Q\times(\sum\cup\{\epsilon\})\rightarrow P(Q)$ 是转移函数(可以空转移，下一个状态并不确定，可抵达多个状态，即为状态的集合)
$q_0\in Q$ 是初始状态
$F\subseteq Q$ 是一可接受状态集合

$Def\ 2.8$ 令 $N=(Q,\sum,\delta,q_0,F)$ 是一个NFA， $w\in\sum^*$ ，若 $w=y_1y_2\cdots y_m,y_i\in\sum \cup\{\epsilon\}$ , $\exist r_0,r_1,\cdots,r_m\in Q$ ,则我们称 $NF A$ 接受 $w$ 。(即只要有一条路径可接收，就接收了)

$NF A$ 例1.6：( $q_4$ 有效)

若输入 010110，则在 $q_1$ 状态输入1时，则可能为 $q_1,q_2,q_3$ ( $\epsilon为空转移$ )

例1.7：设计一个 $NF A$ ,判断倒数第三位是0。

猜哪位是倒数第三位， $NF A$ 每次都猜对, $q_3$ 是有效的， $NF A$ 每次都能在倒数第三位是0时空转移到 $q_1$

例1.8： $L=\{0^k,k是2或3的倍数\}$

$NF A$ 直接猜是2的倍数还是3的倍数，每次都猜对， $q_3，q_2$ 是有效的，分别2的倍数和3的倍数

$Vanant\ 1\ \ \delta:Q\times \sum^*\rightarrow Q$

问题(输入011时，可以从01转移，也可以从011转移)

两个处理方法：

1.我们保证最多只有一条转移路径(与DFA等价)

2.在存在多条转移路径时，任意选择一条(与NFA等价)

$E x am pl e$ 证明变体(Vanant)是与DFA或NFA等价的

例：

$Q/\sum$	0	1	$\epsilon$
$q_0$	${q_0\}$	${q_0,q_1\}$	$\varnothing$
$q_1$	${q_2\}$	$\varnothing$	${q_2\}$
$q_2$	$\varnothing$	${q_3\}$	$\varnothing$
$q_3$	${q_3\}$	${q_3\}$	$\varnothing$

语言为 $L=\{w\in\{0,1\}^*,w含有子串11或101\}$ ， $q_2$ 处如果是0则转入空集，需从头( $q_0$ )再来

$Thm\ 2.9$ 任意一个NFA都有一个等价的DFA

$Proof\ \ \ N=(Q,\sum,\delta,q_0,F)$ 是NFA，识别语言A。

构造一个DFA， $M=(Q',\sum,\delta',q_0',F)$ 也识别语言A。注意到NFA中有空字符转移，

定义 $R\subseteq Q,E(R)=\{q\in Q:q可以从R通过0个或更多的\epsilon到达\}$ (非常简洁美丽的良定义)

定义 $M$ 如下：

$Q^{'} = P (Q)$
对 $R\in Q'$ 和 $a\in \sum$ ,定义 $\delta'(R,a)=\{q\in Q:q\in E(\delta(r,a)),for\ some \ r \in R\}=\bigcup\limits_{r\in R}E(\delta(r,a))$ （路径扩展，NFA中的每条路径都扩展为DFA的一个可到达的节点）
$q'=E({q_0})$
$F'=\{R\in Q':R\cap F\ne\varnothing\}$

$E x am pl e$
如何将一个NFA转换为DFA
NFA

DFA

$Corolloy\ 2.10$ 语言A是正则的，当且仅当存在NFA可接收他

$Thm\ 2.5$ 两个正则语言的并集也是正则的

在这里插入图片描述

图1 N ₁∪N ₂的形象化证明

$N_1=(Q_1,\sum,\delta_1,q_1,F_1)$ 接受 $A_1$ ， $N_2=(Q_2,\sum,\delta_2,q_2,F_2)$ 接受 $A_2$ ，构造 $N=(Q,\sum,\delta,q_0,F)$ ，如下：

$Q=Q_1\cup Q_2\cup \{q_0\}$
$q_0$ 是初始状态
$F=F_1\cup F_2$
$For\ q\in Q,a\in \sum\cup\{\epsilon\}$

$\delta(q,a)=\begin{cases} \delta_1(q,a)\ \ \ \ \ \ q\in Q_1\\ \delta_2(q,a)\ \ \ \ \ \ q\in Q_2\\ \{q_1,q_2\} \ \ \ \ \ \ q=q_0 \ and\ a=\epsilon\\ \varnothing\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q=q_0\ and\ a\ne \epsilon \end{cases}$

$Thm\ 2.11$ 两个正则语言的连接是正则的

在这里插入图片描述

图2 N ₁N ₂的图形化证明

$N_1=(Q_1,\sum,\delta_1,q_1,F_1)$ 接受 $A_1$ ， $N_2=(Q_2,\sum,\delta_2,q_2,F_2)$ 接受 $A_2$ ，构造 $N=(Q,\sum,\delta,q_0,F)$ ，如下：

$Q=Q_1\cup Q_2\cup \{q_0\}$
$q_0=q_1$ 是初始状态
$F=F_2$
$For\ q\in Q,a\in\sum\cup\{\epsilon\}$

$\delta(q,a)=\begin{cases} \delta_1(q,a)\ \ \ \ \ \ \ q\in Q_1\ and \ q\notin F_1\\ \delta_2(q,a)\ \ \ \ \ \ \ q\in Q_2\\ q_2\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q\in F_1\ and\ a=\epsilon\\ \varnothing\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q=q_0\ and\ a\ne\epsilon \end{cases}$

$T hm$ 2.12 正则语言的*也是正则的。

在这里插入图片描述

图3 N ^*的图形化证明

$N_1=(Q_1,\sum,\delta_1,q_1,F_1)$ 接受 $A_1$ ，构造 $N=(Q,\sum,\delta,q_0,F)$ ，如下：

$Q=Q_1\cup \{q_0\}$
$q_0$ 是初始状态
$F=F_1\cup\{q_0\}$
$For\ q\in Q,a\in\sum\cup\{\epsilon\}$

$\delta(q,a)=\begin{cases} \delta_1(q,a)\ \ \ \ \ \ q\in Q_1\\ q_0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q\in F_1\ and \ a=\epsilon\\ q_1\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q=q_0\ and\ a=\epsilon\\ \varnothing\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ q\in F_1\ and\ a\ne \epsilon \end{cases}$

$T hm 2.13$ 正则语言的补也是正则的

令 $M=(Q,\sum,\delta,q_0,F)$ ,构造 $M'=(Q,\sum,\delta,q_0,Q-F)$ ，后者显然接收前者的补

1.3正则表达式

$E x am pl e$

奇数结尾： $(0\cup1\cup2\cup\cdots\cup9)^*(1\cup3\cup5\cup7\cup9)$
偶数结尾： $(0\cup1\cup2\cup\cdots\cup9)^*(2\cup4\cup6\cup8\cup0)$
$(0\cup1)0^*$ ，以0或1开头，后面接任意多个0
$(0\cup1)^*=\sum^*$
$(0\cup\sum^*)\cup(\sum^*1)$ ：所有以0开头或者以1结尾的字符串

$Def\ 2.14$ 正则表达式 如果 $R$ 满足以下条件， $R$ 是正则表达式:

$a\ for\ some \ a \in\sum$
$\epsilon$
$\varnothing$
$(R_1\cup R_2)$ ,如果 $R_1,R_2$ 是正则表达式
$R_1R_2)$ ,如果 $R_1,R_2$ 是正则表达式
$R_1^*)$ ：如果 $R_1$ 是正则表达式

括号可被忽略。

$E x am pl e$

$0^*10^*$ ，只有一个1的字符串
$^*1\sum^*$ ，至少有一个1的字符串
$^*001\sum^*$ ，含001子串的字符串
$1^*(01^+)^*$ ，没有连续0的字符串
$sum)^*$ ,偶数长度的字符串
$(01\cup10)=\{01,10\}$
$(0\cup\epsilon)1^*=(01^*\cup1^*)$
$(0\cup\epsilon)(1\cup\epsilon)=\{\epsilon,0,1,01\}$
$1^*\varnothing=\varnothing$
$\varnothing^*=\{\epsilon\}$

$^*110\sum^*$ :含有子串110

$(\epsilon\cup0\cup1)(10\cup1)^*$ ：没有字串00(用1把0隔开)

$0^*10^*10^*10^*)^*$ ：含有3的倍数个1

$\sum^*1^+\sum^*1^+\sum^*0^+\cup\sum^*1^+\sum^*0^+\sum^*1^+\cup0^+\sum^*1^+\sum^*1^+$ ：至少有2个1和1个0

$Thm\ 2.15$ 一个语言是正则的 $\Longleftrightarrow$ 某一正则表达式能表示它

( $\Leftarrow$ ):如果一个语言可以被正则表达式描述，那么它是正则的：

$P roo f :$

$R=a,a\in\sum,\ L(R)=\{a\}$
$R=\epsilon$
$R=\varnothing$
$R=R_1\cup R_2 (by\ Thm\ 2.5)$
$R=R_1R_2(by\ Thm\ 2.11)$
$R=R_1^*(by\ \ Thm\ 2.12)$

$Example\ (ab\cup a)^*$

( $\Rightarrow$ )为了证明充分性，先引入GNFA的定义

$Def\ 2.18$ 广义非确定型有穷自动机(GNFA)

是一个五元组 $(Q,\sum,\delta,q_{start},q_{accept})$

Q是有穷的状态集
$\sum$ 是输入字母表
$\delta:(Q-\{q_{accept}\})\times R\rightarrow (Q-\{q_{start}\})$ ,R是所有正则表达式的集合
$q_{start}$ 是起始状态
$q_{accept}$ 是接收状态

起始状态没有入边，接收状态没有出边，除了起始状态，和接收状态之外，任何两个状态之间必须有一条边，不能有多重边。

CONVERT(G):

设k是G的状态数
如果k=2，则G一定是由1个起始状态，一个接收状态和连接这两个状态的箭头组成，设箭头上的标记为正则表达式R，返回这个表达式R
如果k>2，则任取 $q_{rip}\in Q-\{q_{start},q_{accept}\}$ ,并且令G’为 $GNFA(Q',\sum,\delta',q_{start},q_{accept})$ ，其中 $Q'=Q-\{q_{rip}\}$ ,令
$\delta'(q_i,q_j)=(R_1)(R_2)^*(R_3)\cup R_4$
计算CONVERT(G’) 且返回这个值

$Cl aim$ 对任意的 $GNFA\ \ \ G$ , $CON V ERT (G)$ 等价于 $CON V ERT (G^{'})$

$Proof\ $1) $L(G)\subseteq L(G')$

$For\ any\ w\in\sum^{*},if\ G\ accepts\ w,then\ G'\ accepts \ w:$
$q_{start},q_1,q_2,q_3,\cdots,q_{accept}$
$if\ none\ of\ them\ is \ q_{rip},then\ G'\ also\ accepts\ w$

$if\ q_{rip}\ appears,$
$q_{start},q_1,\cdots,q_{i_{t_1}},q_{i_{t_2}}=q_{rip},q_{i_{t_3}},\cdots ,q_{accept}$
$Then\ G'\ also\ accepts\ w$

$2)L(G')\subseteq L(G)$

将DFA转换成等价的正则表达式

1.4 非正则语言

$Loma\ 2.17$ (泵引理)若A是一个正则语言，则存在一个数 $p$ (泵长度)使得，如果 $s$ 是 $A$ 中任一长度不小于 $p$ 的字符串，那么 $s$ 可被分成三段, $s = x yz$ ,满足下述条件：

对每一个 $i\ge 0,xy^iz\in A$
$∣ y ∣ > 0$
$|xy|\le p$

$P roo f$ (p48)

设 $M=(Q,\sum,\delta,q_1,F)$ 是一台识别A的DFA， $p = ∣ Q ∣$

设 $s=s_1s_2\cdots s_n$ 是A中长度为 $n$ 的字符串，这里 $n\ge p$ ,又设 $r_1,\cdots,r_{n+1}$ 是M在处理 $s$ 的过程中进入的状态序列，因而 $r_{i+1}=\delta(r_i,s_i),1\le i\le n$ ,该序列长度为 $n + 1$ ，不小于 $p + 1$ 。根据鸽巢原理，在该序列的前 $p + 1$ 个元素中，一定有两个相同的状态，设第一个是 $r_j$ ,第二个是 $r_l$ ,由于 $r_l$ 出现在序列的前 $p + 1$ 个位置中，而且序列是从 $r_1$ 开始的，故有 $l\le p+1$ 。此时，令 $x=s_1\cdots,s_{j-1},y=s_j\cdots s_{l-1},z=s_l\cdots s_n$

例：

1.证明 $D=\{1^{n^2}|n\ge0\}$ 不是正则的。

假设是正则的，设 $p$ 是泵长度。 $s$ 是字符串 $1^{p^2}$ ，显然长度大于 $p$ ，则可被分为三段， $s = x yz$ ，使得对任意的 $i\ge 0$ ，字符串 $xy^iz$ 在 $D$ 中。

考虑 $x yz$ 和 $xy^2z$ ，它们之间相差 $y$ 的一次重复，长度差 $y$ 的长度。

2.证明 $D=\{1^p|p是素数\}$ 不是正则的。

假设正则的，设p是泵长度。s是字符串 $1^q,q\ge p$ ,则可被分为三段， $s = x yz$ ，使得对任意的 $i\ge 0$ ，字符串 $xy^iz$ 在 $D$ 中。不妨假设 $x=1^a,y=1^b,z=1^c$ ,则 $a + ib + c$ 要为素数，注意到，当 $i = a + b + c + 1, a + ib + c = (b + 1) (a + b + c)$ ，不是素数。

注意的过程：希望是 $b+w)(ka+mb+tc)=(kab+mb^2+tbc+kwa+mwb+twc)$ ,则对应不难发现可令w=1，有k=1,t=1,则可化为 $b+1)(a+mb+c)=(ab+mb^2+bc+a+mb+c)$ ，则 $ib=(ab+mb^2+bc+mb)，i=(a+c+mb+m)$ ,令 $m = 1$ 即可得到