计算理论和自动机理论学习笔记

最新推荐文章于 2024-11-30 12:32:47 发布

Campsisgrandiflora

最新推荐文章于 2024-11-30 12:32:47 发布

阅读量1.9k

点赞数 3

分类专栏：形式化验证文章标签：计算理论自动机理论课程学习笔记

本文链接：https://blog.csdn.net/Campsisgrandiflora/article/details/109774715

版权

形式化验证专栏收录该内容

39 篇文章

订阅专栏

本文介绍了自动机理论的基础知识，涵盖了有限状态机的各种类型及其应用，包括确定性与非确定性有限状态机、Moore与Mealy机等。同时探讨了正则语言、上下文无关语言等概念，并涉及图灵机的强大计算能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前置知识

符号(Symbol)
a,b,c,0,1,2

字母表(alphabet)
字母表Σ是符号的集合，例如{a,b},{0,1,2}

字符串(string)
符号的序列，如a,aa,bb,aba

语言(language)
字符串的集合，如{00,11,01,10}

字母表的幂(power)
如果字母表Σ={0,1}
$Σ_{0}$ =所有长度为0的字符串的集合: $Σ_{0}=\{\epsilon\}$
$Σ_{1}$ =所有长度为1的字符串的集合: $Σ_{1}=\{\ 0,1\}$
$Σ_{2}$ =所有长度为2的字符串的集合: $Σ_{2}=\{\ 00,01,10,11\}$
$Σ_{n}$ =所有长度为n的字符串的集合

$Σ_{n}$ 中元素的个数为 $2^n$

$Σ^{*}=Σ_{0}\cup Σ_{1}\cup Σ_{2}\cup Σ_{3}...$ =字母表可能组成的所有字符串的集合

有限状态机

分类

有限状态机(finite state machine)也被称为有限自动机(finite automata)，可以根据有没有输出分为两类
有输出的有限状态机：Moore Machine,Mealy Machine
无输出的有限状态机：DFA,NFA, $\epsilon$ -NFA

确定的有限状态机(DFA)

这是一种最最简单的模型，并且存储非常有限

DFA由一个五元组 $S,Σ,s_{0},F,δ)$ 构成：

$S$ 是一组状态的集合
$Σ$ 是输入字母表
$s_{0}$ 是初始状态
$F$ 是终止状态的集合
$δ$ 是转换函数: $S×Σ\rightarrow S$

有如下确定有限状态机，DFA表示为一个有向图，没有源的箭头指向的是初始状态，两个圆圈代表终止状态，状态又圆圈表示，转换函数由有向线段表示，由一个状态指向另一个状态，线段上的字符代表着输入字符，所以：

S={A,B,C,D}
Σ={0,1}
$s_{0}=A$
F={D}
δ(A,1)=B,δ(B,1)=A,δ(B,0)=D,δ(D,0)=B,δ(D,1)=C,δ(C,1)=D,δ(C,0)=A,δ(A,0)=C

如果一个字符串t能够使得一个DFA M从初始状态最终达到终止状态，那么我们称t可以被M所接受(accept，也可以叫做识别recognize)。对于上面的例子，一个可被接受的输入为10

正则语言(regular language)

如果一个语言能被称为正则语言，当且仅当它能被某些有限状态机接受。

我们已经知道了接受这个概念，那么有哪些语言不是正则语言呢？

不能被有限状态机识别
需要存储空间(memory)

因为有限状态机的存储空间非常小，所以它不能存储或者计数字符串。

反例

abaababaab
这个语言由abaab重复组成，因为有限状态机不能存储字符串，所以它不是一个正则语言。
$a^nb^n$
这个语言化简出来就是n个a和n个b，假如n=4，那么就是aaaabbbb，所以需要对a和b的个数进行计数，但是我们知道有限状态机不能计数，所以它也不是一个正则语言。

正则语言的操作
Union: $A\cap B=\{x|x∈A\; or\; X∈B\}$
Concatenation: $A\circ B=\{xy|x∈A\; and\; y∈B\}$
Star: $A^*=\{x_{1}x_{2}x_{3}...x_{k}|k\ge0 \; and\; each\; x_{i}∈A\}$

定理1:两个正则语言的交集(union)仍然是正则语言
定理2:两个正则语言的级联(concatenation)仍然是正则语言

不确定的有限状态机(NFA)

在DFA中，给定一个状态和一个输入，它的下一个状态只有唯一的一种情况，但是对于不确定的有限状态机(NFA)来说，给定状态和输入，它的下一个状态可能会有多种情况。
在这里插入图片描述
NFA的定义与DFA一样也是一个五元组 $S,Σ,s_{0},F,δ)$ ，含义与DFA的一样，不过转换函数 $δ$ 定义为 $S×Σ\rightarrow 2^S$ ，因为对于同一个输入来说，转换有多种可能。

对于上面的例子，表示为：

S={A,B}
Σ={0,1}
$s_{0}=A$
F={B}
δ(A,1)={A},δ(A,0)={AB},δ(B,1)=∅,δ(B,0)=∅

$ε$ -NFA

我们看到它前面带了一个 $ε$ ，这个符号表示空字符， $ε$ -NFA与NFA的区别就是，接受空字符也能发生状态转换。对于一般状态机来说，接受空字符的结果仍然为当前状态，但是 $ε$ -NFA接受空字符后可以转变为另一个状态，这就产生了一种不确定性(undetermined)，是一种NFA。

$ε$ -NFA的定义与NFA一样，不过转换函数 $δ$ : $S×Σ\cup \epsilon \rightarrow 2^Q$ ，表示不同状态之间的转换允许提供空字符。
在这里插入图片描述

Moore Machine

前面讲了几种不带有输出的自动机，另外两种mealy machine和moore machine是带有输出的自动机

摩尔状态机由六元组组成：

$S$ 是一组状态的集合
$Σ$ 是输入字母表
$Δ$ 是输出字母表
$s_{0}$ 是初始状态
$F$ 是终止状态的集合
$δ$ 是转换函数: $S×Σ\rightarrow S$
$λ$ 是输出函数: $Q\rightarrow Δ$

在这里插入图片描述
这是一个摩尔状态机的示例图，如果我们输入1010，它的输出将会是a,a,b,a,b， $∣$ 左边大写的字母代表状态，右边小写的字母代表的是输出，因为初始状态是A，所以它先会输出一个a，然后按照1010的输入顺序，每访问一个状态就输出该状态下对应的输出。

Mealy Machine

Mealy Machine由六元组组成：

$S$ 是一组状态的集合
$Σ$ 是输入字母表
$Δ$ 是输出字母表
$s_{0}$ 是初始状态
$F$ 是终止状态的集合
$δ$ 是转换函数: $S×Σ\rightarrow S$
$λ$ 是输出函数: $Σ×Q\rightarrow Δ$

在这里插入图片描述
这是一个Mealy Machine的示例图，如果我们输入1001，它的输出为b,a,a,b，可以看到，Mealy Machine的输出是在转换关系上的， $∣$ 左边代表转换，右边代表输出，对于Mealy来说它的输出主要和转换有关，而对于Moore Machine来说，它的输出与状态和转换都有关。

正则表达式(regular expression)

正则表达式用于以代数方式表示某些字符串集

任何终结符号(terminal symbol)包括ε(代表空字符), $\phi$ (代表null)都属于正则表达式
像什么a,b,c,ε, $\phi$ 都是正则表达式
两个正则表达式的并集也是正则表达式
a,b是正则表达式那么a+b(表示关系或)也是
两个正则表达式的级联也是正则表达式
a,b是正则表达式那么ab也是
正则表达式的迭代(或闭包)也是正则表达式
a是正则表达式，那么a*也是正则表达式，a*=^,a,aa,aaa,…
遵循上述规则组合在一起的表达式也是正则表达式

上述规则用符号定义为:
$\varnothing\text{ | ε | A | E+E' | E.E' | E*}$

语法(grammar)

首先我们要知道什么是语法(grammar)，语法就是适用于交流的一组规则，用在计算机领域，Noam Chomsky给出了一种语法的数学模型，用于有效地编写计算机语言。

他给出了四种类型的语法：

Grammar type	Grammar Accept	Language Accept	Automaton
TYPE-0	Unrestricted Grammar	Recursively Enumerable Language	Turing Machine
TYPE-1	Context Sensitive Grammar	Context Sensitive Language	Linear Bounded Automaton
TYPE-2	Context Free Grammar	Context Free Language	Pushdown automaton
TYPE-3	Regular Grammar	Regular Language	Finite State Automaton

一个语法G，可以描述为一个四元组G=(V,T,S,P)

V：变量或者非终结符号(non-terminal symbol)的集合
T：终结符号(terminal symbol)的集合
S：初始符号
P：终结符合非终结符的生成规则(production rules)

生成规则P形如 $α\rightarrow β$ ，α和β是 $V\cup T$ 中的字符串，并且α中至少有一个字符属于V

举例：G=（{S,A,B},{a,b},S,{S->AB,A->a,B->b}）

展示由语法生成字符串的过程：
从开始符号开始S，看到生成规则 $S\rightarrow AB$ ，又因为 $A\rightarrow a$ ，并且 $B\rightarrow b$ ，所以我们可以得出:
$S\rightarrow AB\rightarrow ab$

由语法推导(derivation)出的字符串的集合，我们称之为语法生成的语言(language)
例如，上面的那个例子，生成的语言可以记为L(G)={ab}

正规文法(regular grammar)

正规文法可以分为两个类别,右线性文法(right linear grammar)和左线性文法(left linear grammar)

如果所有的生成规则具有如下形式，那么我们称这种文法为右线性文法
$\rightarrow xB \\ A \rightarrow x$
$A, B \in V ， x \in T$

左线性文法也就同样的定义为
$\rightarrow Bx \\ A \rightarrow x$
$A, B \in V ， x \in T$

上下文无关文法(context free grammar)

上下文无关文法还是由四元组G=(V,T,S,P)组成，含义也一样

生成规则P定义为 $A\rightarrow a$ ， $a=\{V\cup T\}^*$ 且A∈V

举例 $G=\{(S,A),(a,b),(S\rightarrow aAb,A\rightarrow aAb|ϵ)\}$

上面的|符号两边均可以生成，我们可以尝试看看会生成什么字符串
$S\rightarrow aAb\rightarrow aaAbb\rightarrow aaaAbbb\rightarrow aaabbb=a^3b^3(最后一步A生成ϵ)$

可以想见该上下文无关文法生成的是形如ab次幂形式的语言，记为 $L(G)=a^nb^n$

下推自动机(pushdown automata)

下推自动机(PDA)是一种上下文无关文法的实现方式，类似于有限状态机与正则表达式

PDA比有限状态机更加强大
PDA拥有更多的存储空间
PDA=有限状态机+一个栈(stack)

PDA由三个部分组成

an input tape(就当成输入字符串)
有限控制单元(a finite control unit)
无限空间栈(a stack with infinite size)

PDA可以表示为一个七元组 $S,Σ,Γ,δ,s_{0},z_{0},F)$

$S$ 是一组状态的集合
$Σ$ 是输入字母表
$Γ$ 栈的字母表
$δ$ 是转换函数
$s_{0}$ 是初始状态
$z_{0}$ 是初始栈符号
$F$ 是终止状态的集合

$δ$ 有三个参数δ(s,a,X)

s是S中的一个状态
a是输入字母表中的字符或者是空字符(ε)
X是栈字母表中的字符

$δ$ 的输出是（p,γ）的集合

p是新状态
γ是字符串，用来代替栈顶的元素

如果γ=ε，说明栈是空的
如果γ=X，说明栈没有改变，因为我们输入的栈元素就是X，如果输出还是为X，说明栈没有改变
如果y=YZ，代表X被替换成了Z，并且Y被压入栈中(这个我个人理解就是把一个字符串按照字符从左到右一个个压入栈中，Z代表字符串最后一位，位于栈顶)
在这里插入图片描述
上图就是一个PDA，转换上的三个字符分别为a,b,c，a代表输入数字，可以为空(ε)，b代表栈顶中要被pop的字符，当b为空时，代表没有元素会被pop，c代表被push入栈的字符，可以为空，代表没有字符压入栈。相比较于NFA，PDA会在状态转换的过程中处理额外的一个栈。