编译原理笔记(二)——正则表达式和NFA、DFA转化原理
从RE到NFA(Thompson算法)
Thompson
Kenneth Lane Thompson(1943年2月4日 -),计算机科学家,美国计算机学者,1983年图灵奖得主,因为其在Unix上做出的重大贡献,
算法介绍
基于对RE结构做归纳
- 对基本的RE结构,直接构造
- 对于复合的RE结构,递归构造
RE正则表达式的五种结构
e -> 空串j | c | e1 e2 连接 | e1 | e2 选择 | e1* 闭包
- 对于空串
j
,其属于一个基本的RE结构,直接构造,NFA为
- 对于字符c,其也为一个基本的RE结构,NFA的构造为
- 对于连接
e1、e2
- 对于选择
e1|e2
- 闭包
e1*
实例
比如将**a(b|c)***转化成NFA
- 首先需要注意优先级
() > 闭包 > 连接 > 选择,所以上面的描述应该是b和c的选择的闭包再和a的连接
- 从左至右将每个基本模块拆列出来
- 然后连接上去
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWzmhuq2-1637423203277)(https://i.loli.net/2021/11/12/dwXeZsE9cuMAtCR.png)]
从NFA到DFA(子集构造算法)
算法思想
从初始状态q0
出发,看他识别一个字符能到达的所有状态的集合q1
,空字符是不需要消耗字符,然后再从集合q1出发,看他能到达的下一个状态的集合q2,依次类推下去,直到所有状态都被遍历完毕
实例
以RE表达式a(b|c)*
的NFA为列,生成DFA的过程为
从初始状态q0开始,识别a,能到达的状态为**{1,2,3,4,6,9},q1 = {1,2,3,4,6,9},识别b和c没有任何状态,再从q1开始,对于q1内部的子状态,分别再识别符号表中的a,b,c,到4时,识别b,能到{5,8,9,3,4,6}=q2**,然后再从q2出发…
最终得到四个合并状态,他们的简化表示为
空字符闭包的计算(伪代码)
深度优先遍历
set closure = {}
void eps_closure(x)
closure += {x}
foreach(y: x -- 空字符 --> y)
if(!visited(y))
eps->closure(y)
# 因为有一个判断结点是否访问的visited,时间复杂度为O(N)
广度优先遍历
set closure = {}
queue = []
void eps_closure(x) =
queue = [x]
while(queue not empty)
q <- deQueue(queue)
closure += {q}
foreach(y: q--空字符-->y)
if(!visited(y))
enQueue(queue,y)
工作表算法
q0 <- eps_closure(n0)
Q <- {q0}
workList <- q0
while(workList != [])
remove q from workList
foreach(character c)
t <- eps_closure(delta(q, c))
D[q, c] <- t
if (t not in Q)
add t to Q and workList
minDFA算法(Hopcroft算法)
Hopcroft教授是美国理论计算机科学家,美国科学院、工程院及艺术和科学院院士, 康奈尔大学终身教授,1986获得 “图灵奖” 、2010年获得 “冯诺依曼奖章” 、2016年获得 “中国政府友谊奖” 、2017获得西蒙雷曼创始人奖
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OGipZDAP-1637423203280)(https://i.loli.net/2021/11/13/ZwBUuQPFDi4r3Hj.png)]
基于等价类的思想,拆分子集
其伪代码:
split(s)
foreach(character c)
if(c can split S)
split S into T1,T2,T3.....
hopcroft()
split all nodes into N,A
while(set is still changes)
split(S)
现将DFA拆分成,
终止状态集A
和正常状态集N
,然后再在N和A里面拆分,直到不能再拆分为止,从大集合到不能再拆分的小集合,即同一个大集合里面的几个状态扫描一个字符能到同样的状态,那么这几个状态就组成了一个集合,反之就要拆分出来,不断这样下去,一直拿到这个最小集合此时这个最小集合就是minDFA
实例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W81F5HkH-1637423203283)(https://i.loli.net/2021/11/13/6zMjGqfVUlFNrCg.png)]