软考考点之有限状态自动机及正规集

最新推荐文章于 2024-07-24 15:34:01 发布

guangod

最新推荐文章于 2024-07-24 15:34:01 发布

阅读量2.8k

点赞数 3

分类专栏：软考

本文链接：https://blog.csdn.net/guangod/article/details/101672919

版权

软考专栏收录该内容

58 篇文章 41 订阅

订阅专栏

单词的描述工具-正规式：
多数程序设计语言的单词的语法均可用正规文法来表示。例：程序设计语言中几类单词的描述规则：标识符、无符号整数、运算符…。

正规式（regular expression也叫正则表达式）:
正规式是定义正规集的数学工具，是说明单词的模式(pattern)的一种表示法，用它描述单词符号时一般比正规文法更简洁。

这里的RE（正则表达式）只有三个基本的操作:
(1)选择取并集.符号:|. 比如两个字符串集合R和S的选择操作,记作R|S.
(2)连接字符串之间的拼接.两个字符串集合R和S的连接为RS.
(3)闭包符号:* 字符串集合R的闭包R*是指把R与自身连接零次或者多次形成的所有集合的并集.
由这几个简单的操作可以得到我们平常接触的正则表达式的所有扩展.

例 : 令∑={a,b},则∑上的正规式和相应正规集为

正规式	正规集
a	{a}
a\|b	{a,b}
ab	{ab}
(a\|b)(a\|b)	{aa,ab,ba,bb}
a *	{ε ,a,aa, ……任意个a的串}
(a\|b)*	{ε ,a,aa, ……任意个a的串}{ε ,a,b,aa,ab,bb ……所有由 a和b组成的串}
（(a\|b)* (aa\|bb)(a\|b)*	(aa\|bb)(a\|b)* ∑上所有含有两个相继的a或两个相继的b组成的串

例 : 令∑={a，d}，其中a代表字母,d代表数字，则∑上的正规式 r=a(a|d) * 定义的正规集为

{a,aa,ad,add,……}，即：字母(字母|数字) * ,它表示的正规集中的每个元素的模式是“字母打头的字母数字串”,也就是多数程序语言中标识符的词法规则.
如2017年上半年第21题:

在仅由字符a、b构成的所有字符串中，其中以b结尾的字符串集合可用正规式表示为（）

a (b|ab)*b

b (ab*)*b

c a*b*b

d （a|b)*b

解答：若理解成，解释每个答案，看是否以b结尾，那就错了。其实真实题目的意思是，用正规式表示，仅ab构成的字符串表示或a或b构成的字符串，以b结尾。显然是选D

又如2016年下半年第48题

由字符a,b构成的字符串中，若每个a后至少跟一个b,则该字符串集合可用正规式表示为（）

a (b|ab)*

b (ab*)*

c （a*b*）＊

d （a|b)*

答：还是按照上面题，由ab构成的字符串，由此只能是选a

有限状态自动机(Finite Automaton,FA)

我说的时候喜欢加上状态两个字,因为FA的关键动作就是状态间的转移.FA有一个状态集S,对于每一个输入都会让FA的状态进行转移.如果能够从起始状态转移到接受状态,那么输入序列就被识别了.不存在空字符串ε的状态转移.
非确定性有限状态自动机(Non-deterministic Finite Automaton,NFA).对于同一输入转移到多个不同的状态或者存在空字符串ε的状态转移的FA.
确定性有限状态自动机(Deterministic Finite Automaton,DFA).对于任何确定的输入都只有唯一确定的转移且不存在空字符串ε的状态转移的FA.

NFA到DFA 是对NFA的简化过程.
NFA到DFA的子集构造算法(The Subset Construction):从将初始状态划分为一个初始状态子集开始,构造状态子集(经过零个或多个空字符串ε转移到的状态和已在子集中的状态都是构造的新的状态子集),存在c属于字母表Σ,经过一个c的转移(必须有c的转移),能够使得从状态子集ni转移到状态子集nj,则在DFA中有在c的输入下从状态子集ni转移到状态子集nj的转移.最后不再有新的状态子集出现.根据状态子集的转移依次构造DFA.