【学习笔记】自动机理论、语言和计算导论（三）

最新推荐文章于 2024-03-25 07:45:09 发布

子鱼inf_lyceum

最新推荐文章于 2024-03-25 07:45:09 发布

阅读量403

点赞数 1

分类专栏：数理逻辑和自动机理论笔记文章标签：正则表达式编程语言确定性有穷自动机

本文链接：https://blog.csdn.net/qq_36308895/article/details/115422642

版权

数理逻辑和自动机理论笔记专栏收录该内容

5 篇文章 3 订阅

订阅专栏

Content

正则表达式

正则表达式

表达式运算符(优先级递增顺序)

两个语言的并 $L\cup M$ ：只属于 $L$ 或只属于 $M$ ，或者同时属于二者的串的集合。
两个语言的连接 $L M$ ：取 $L$ 中任意一个串，与M中任意一个串连接起来的串集合。
语言的闭包 $L^*$ ： $L$ 中任意多串的连接的并。 $\bigcup_{i\ge 0}L^i$ 。 $\varnothing^*=\{\varepsilon\}$ ， $\varnothing^0=\{\varepsilon\}$ 。

构造正则表达式
对每个正则表达式 $E$ ，描述了 $E$ 所代表的语言 $L (E)$ 。
基础：

常量 $\varepsilon$ 和 $\varnothing$ 是正则表达式，分别表示语言 $\{\varepsilon\}$ 和 $\varnothing$ 。也就是说， $L(\varepsilon)=\{\varepsilon\}$ 且 $L(\varnothing)=\varnothing$ 。
若 $a$ 是任意符号，则 $\mathbf{a}$ 是正则表达式。这个表达式表示语言 ${a\}$ 。也就是说， $L(\mathbf{a})=\{a\}$ 。注意，用黑体字表示一个符号所对应的表达式。这种对应关系应当是明显的，如 $\mathbf{a}$ 指的是 $a$ 。
变量，通常用大写斜体符号表示，如 $L$ 。它代表任意语言。

归纳：三种运算符，括号的引入。

如果 $E$ 和 $F$ 都是正则表达式，则 $E + F$ 是正则表达式，表示 $L (E)$ 和 $L (F)$ 的并。 $L(E+F)=L(E)\cup L(F)$ 。
如果 $E$ 和 $F$ 都是正则表达式，则 $E F$ 是正则表达式，表示 $L (E)$ 和 $L (F)$ 的连接。也就是说， $L (E F) = L (E) L (F)$ 。注意，可以任意地用点来表示连接运算符，既作为语言上的运算，也作为正则表达式上的运算符。例如， $\mathbf{0.1}$ 是正则表达式，与 $\mathbf{01}$ 的意思一样，表示语言 ${01\}$ 。但是在正则表达式中避免用点作为连接。
如果 $E$ 是正则表达式，则 $E^*$ 是正则表达式，表示 $L (E)$ 的闭包。 $L(E^*)=(L(E))^*$ 。
如果 $E$ 是正则表达式，则 $(E)$ 也是正则表达式，与 $E$ 表示相同的语言。 $L ((E)) = L (E)$ 。

例：一个正则表达式，表示交替的0和1的串的集合：
$\mathbf{(01)^{*}+(10)^{*}+0(10)^{*}+1(01)^{*} \qquad 或 \qquad ( \varepsilon + 1 ) ( 01 ) ^ { * } ( \varepsilon + 0 )}$

有穷自动机和正则表达式

有穷自动机和正则表达式所描述的语言是等价的。

定理：如果对于某个DFA $A$ ， $L = L (A)$ ，则存在一个正则表达式 $R$ ，使得 $L = L (R)$ 。
证明：
设对于某个整数 $n$ ， $A$ 的状态是 $\{1,2,\cdots,n\}$ 。无论 $A$ 的状态实际是什么，对于某个有穷的 $n$ ，都会有 $n$ 个状态，通过为这些状态改名，可以以前 $n$ 个正整数方式来引用这些状态。下面构造一组正则表达式，来描述 $A$ 的转移图中越来越大的路径集合。
用 $R_{ij}^{(k)}$ 作为正则表达式的名字，这些表达式的语言是下列串 $w$ 的集合：使得 $w$ 是 $A$ 中从状态 $i$ 到状态 $j$ 的路径的标记，而且这条路径没有编号大于 $k$ 的中间顶点。注意，路径的起点和终点都不是“中间的”，所以不限制 $i$ 和（或） $j$ 要小于或等于 $k$ 。
为了构造表达式 $R_{ij}^{(k)}$ ，使用下面的归纳定义，从 $k = 0$ 开始，最终到达 $k = n$ 。注意，当 $k = n$ 时，在所表示的路径上根本没有限制，因为没有状态比 $n$ 还大。
基础：基础是 $k = 0$ 。由于所有状态都编号为1或更大，路径上的限制是：路径必定根本没有中间状态。只有两种路径满足这样的条件：
1.从顶点（状态） $i$ 到顶点 $j$ 的一条箭弧。
2.只包含某个顶点 $i$ 的长度为0的路径。
如果 $i\neq j$ ，则只有情形(1)是可能的。我们必须检查这个DFA $A$ ，并寻找这些输入符号 $a$ ：使得在符号 $a$ 上有从状态 $i$ 到状态 $j$ 的转移。
a) 如果没有这样的符号 $a$ ，则 $R_{ij}^{(0)}=\varnothing$ 。
b) 如果恰好有一个这样的符号 $a$ ，则 $R_{ij}^{(0)}=\mathbf{a}$ 。
c) 如果有符号 $a_1,a_2,\cdots,a_k$ ，都标记从状态 $i$ 到状态 $j$ 的箭弧，则 $R_{ij}^{(0)}=\mathbf{a_1+a_2+\cdots+a_k}$ 。
但是，如果 $i = j$ ，则合法路径就是长度为0的路径和所有从 $i$ 到自身的环。长度为0的路径表示成正则表达式 $\varepsilon$ ，因为这个路径沿途没有符号。因此，把 $\varepsilon$ 加入上面(a)到©所设计的各种表达式中。也就是说，在情形(a)下（没有符号a），表达式成为 $\varepsilon$ ；在情形(b)下（一个符号a），表达式成为 $\varepsilon＋\mathbf{a}$ ；在情形©下（多个符号），表达式成为 $R_{ij}^{(0)}=\mathbf{a_1+a_2+\cdots+a_k}$ 。
归纳∶假设存在从 $i$ 到 $j$ 的路径不经过比 $k$ 高的状态。有两种可能的情形需要考虑：
1.这条路径根本不经过状态 $k$ 。在这种情形下，路径的标记属于 $R_{ij}^{(k-1)}$ 的语言。
2.这条路径经过状态 $k$ 至少一次。于是把路径分成几段，如图3-3所示。第一段不经过 $k$ 而从状态 $i$ 到状态 $k$ ，最后一段不经过 $k$ 而从 $k$ 到 $j$ ，所有中间路段都不经过 $k$ 而从 $k$ 到自身。注意，如果路径只经过状态 $k$ 一次，则没有"中间"段，只有从 $i$ 到 $k$ 的路径和从 $k$ 到 $j$ 的路径。所有这种路径的标记的集合表示成正则表达式 $R_{ik}^{(k-1)}(R_{kk}^{(k-1)})^*R_{kj}^{(k-1)}$ 。也就是说，第一个表达式表示第一次到达状态 $k$ 的路径部分，第二个则表示从 $k$ 到自身零次、一次或多次的部分，第三个表达式表示最后一次离开 $k$ 并到达状态 $j$ 的路径部分。

把上面两种路径的表达式组合起来，得到表达式 $R_{ij}^{(k)}=R_{ij}^{(k-1)}+R_{ik}^{(k-1)}(R_{kk}^{(k-1)})^*R_{kj}^{(k-1)}$
表示从状态 $i$ 到状态 $j$ 而不经过比 $k$ 更高状态的所有路径的标记。如果按照上标递增的顺序来构造这些表达式，则由干每个 $R_{ij}^{(k)}$ 只依赖于上标更小的表达式，所有的表达式都在需要时已经构造出来了。
最终对于所有 $i$ 和 $j$ ，都得到 $R_{ij}^{(n)}$ 。可以假设，状态1是初始状态，而接受状态可以是任意一组状态。自动机的语言的正则表达式，就是所有表达式 $R_{1j}^{(n)}$ 之和（并），使得状态 $j$ 是接受状态。

正则表达式的应用

对于搜索文本中模式的应用来说，正则表达式是一种选择媒介，给出了要识别模式的"图像"。然后在后台正则表达式被编译成确定型自动机或非确定型自动机，再通过模拟自动机来产生识别文本中模式的程序。

UNIX中的正则表达式
（扩展记号）引入字符类，紧凑地表示大的字符集

符号. （点）表示“任意字符”。
序列 $[a_1a_2\cdots a_k]$ 表示 $a_1+a_2+\cdots a_k$ 。
在方括号之间规定形如 $x - y$ 的范围，表示ASCII序列中从 $x$ 到 $y$ 的所有字符。例如，数字表示成[0-9]，大写字母表示成[A-Z]，所有字母和数字的集合表示成[A-Za-z0-9]。如果要在字符列表中包含负号，就放在开头或结尾，这样不会与字母范围的形式相混淆。例如，要形成带符号的十进制数，所用的数字集合以及点、加号和负号等表示成[-+.0-9]。方括号或者在UNIX正则表达式中有特殊意义的其他字符，表示成在对应字符前加一个斜杠（\）。
几种最常见的字符类有特殊记号。例如∶
a）[:digit:]是十进制数字集合，与[0-9]相同。
b）[:alpha:]表示任何字母字符，与[A-Za-z]相同。
c）[:alnum:]表示数字和字母（字母和数字字符），与[A-Za-z0-9]相同。

另外，有几个在UNIX正则表达式中使用的运算符，不扩大所表示的语言范围，但有时更容易表达所要表达的东西。

用 $∣$ 代替 $+$ 来表示并。
运算 $?$ 表示“0个或1个”。因此，UNIX中 $R ?$ 与本书中 $\varepsilon＋R$ 一样。
运算 $+$ 表示“1个或多个”。因此，UNIX中 $R +$ 与本书中 $RR^*$ 一样。
运算 ${n\}$ 表示"n个副本"。因此，UNIX中 $R\{5\}$ 是 $R R R R R$ 的缩写。
UNIX正则表达式允许用括号来对子表达式分组，并且采用同样的运算符优先级（考虑优先级时，?、+和 ${n\}$ 按*对待）。UNIX中使用星运算符*与本书前面所用的意思相同。

词法分析
称为"词法分析器"的编译器部件扫描源程序，识别所有的记号（token），即在逻辑上成为一体的连续字符的子串。关键字和标识符都是记号的常见例子，但还有许多其他例子。
UNIX命令lex和GNU版本的flex都接受UNIX风格的正则表达式列表作为输入，每个正则表达式后面跟着花括号内的一节代码，当词法分析器发现记号实例时，代码指示词法分析器如何工作。这样的工具称为词法分析器生成器，因为把词法分析器的高层描述作为输入，由此产生正确的词法分析器函数。
已经发现，像lex和flex这样的命令非常有用，因为正则表达式记号恰好具备了描述记号所需要的能力。这些命令能够利用从正则表达式到自动机的转换过程来生成有效的函数，把源程序分解成记号。这使得实现一个词法分析器只要半天工夫，而在开发这些基于正则表达式的工具之前，手工生成词法分析器要花费数月时间。而且，如果出于任何理由需要修改词法分析器，只需要修改正则表达式而不是代码。

查找文本中的模式
例子：为街道地址开发的表达式(UNIX风格)
'[0-9]+[A-Z]?[A-Z][a-z]*([A-Z][a-z]*)*(Street|St\.|Avenue|Ave\.|Road|Rd\.)'

正则表达式代数定律

并的幂等律： $L + L = L$
并的交换律： $L + M = M + L$
并的结合律： $(L + M) + N = L + (M + N)$
连接的结合律： $(L M) N = L (M N)$ （连接没有交换律）
$\varnothing$ 是并运算的单位元： $\varnothing+L=L+\varnothing=L$
$\varepsilon$ 是连接运算的单位元： $\varepsilon L=L\varepsilon=L$
$\varnothing$ 是连接运算的零元： $\varnothing L=L\varnothing=\varnothing$
连接对于并的左分配律： $L (M + N) = L M + L N$
连接对于并的右分配律： $(M + N) L = M L + N L$
闭包的定律： $L^*)^*=L^*$ ， $\varnothing^*=\varepsilon$ ， $\varepsilon^*=\varepsilon$ ， $L^+=L+LL+LLL+\dots=LL^*=L^*L$ ， $L^*=L^++\varepsilon$ ， $L?=\varepsilon+L$ 。

定理（发现正则表达式定律）设 $E$ 是带变量 $L_1, L_2\dots,L_m$ 的正则表达式。对于 $i=1,2,\dots,m$ ，通过把 $L_i$ 的每次出现都换成符号 $a_i$ 形成具体的正则表达式 $C$ 。于是对于任意的语言 $L_1, L_2\dots,L_m$ ，每一个属于 $L (E)$ 的串 $w$ 都可写成 $w=w_1w_2\dots w_k$ ，其中每个 $w_i$ 都属于任意的语言之一（如 $L_{j_i}$ ），而且串 $a_{j_1}a_{j_2}\dots a_{j_k}$ ，属于语言 $L (C)$ 。非形式化地说，从每个属于 $L (C)$ 的串开始（如 $a_{j_1}a_{j_2}\dots a_{j_k}$ ），把每个 $a_{j_i}$ ，都换成对应语言 $L_{j_i}$ 中的任意串，这样就构造出了 $L (E)$ 。