编译原理笔记(二)——正则表达式到有限状态自动机

编译原理笔记(二)——正则表达式和NFA、DFA转化原理

Thompson算法
子集构造算法
Hopcroft算法
RE
NFA
DFA
词法分析器

从RE到NFA(Thompson算法)

Thompson

Kenneth Lane Thompson(1943年2月4日 -),计算机科学家,美国计算机学者,1983年图灵奖得主,因为其在Unix上做出的重大贡献,

算法介绍

基于对RE结构做归纳

  1. 对基本的RE结构,直接构造
  2. 对于复合的RE结构,递归构造

RE正则表达式的五种结构

e -> 空串j
	| c
	| e1 e2  连接
	| e1 | e2  选择
	| e1* 闭包
  • 对于空串j,其属于一个基本的RE结构,直接构造,NFA为

image-20211112142623485

  • 对于字符c,其也为一个基本的RE结构,NFA的构造为

image-20211112142747888

  • 对于连接e1、e2

image-20211112143154868

  • 对于选择e1|e2

image-20211112143451392

  • 闭包e1*

image-20211112143815025

实例

比如将**a(b|c)***转化成NFA

  • 首先需要注意优先级

() > 闭包 > 连接 > 选择,所以上面的描述应该是b和c的选择的闭包再和a的连接

  • 从左至右将每个基本模块拆列出来
  • 然后连接上去

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWzmhuq2-1637423203277)(https://i.loli.net/2021/11/12/dwXeZsE9cuMAtCR.png)]

从NFA到DFA(子集构造算法)

算法思想

从初始状态q0出发,看他识别一个字符能到达的所有状态的集合q1,空字符是不需要消耗字符,然后再从集合q1出发,看他能到达的下一个状态的集合q2,依次类推下去,直到所有状态都被遍历完毕

实例

以RE表达式a(b|c)*的NFA为列,生成DFA的过程为

从初始状态q0开始,识别a,能到达的状态为**{1,2,3,4,6,9},q1 = {1,2,3,4,6,9},识别b和c没有任何状态,再从q1开始,对于q1内部的子状态,分别再识别符号表中的a,b,c,到4时,识别b,能到{5,8,9,3,4,6}=q2**,然后再从q2出发…

最终得到四个合并状态,他们的简化表示为

image-20211112152313278

空字符闭包的计算(伪代码)

深度优先遍历

set closure = {}

void eps_closure(x)
	closure += {x}
	foreach(y: x -- 空字符 --> y)
		if(!visited(y))
			eps->closure(y)

# 因为有一个判断结点是否访问的visited,时间复杂度为O(N)

广度优先遍历

set closure = {}
queue = []

void eps_closure(x) =
	queue = [x]
	while(queue not empty)
		q <- deQueue(queue)
		closure += {q}
		foreach(y: q--空字符-->y)
			if(!visited(y))
				enQueue(queue,y)

工作表算法

q0 <- eps_closure(n0)
Q <- {q0}

workList <- q0
while(workList != [])
	remove q from workList
	foreach(character c)
		t <- eps_closure(delta(q, c))
		D[q, c] <- t
		if (t not in Q)
			add t to Q and workList

minDFA算法(Hopcroft算法)

Hopcroft教授是美国理论计算机科学家,美国科学院、工程院及艺术和科学院院士, 康奈尔大学终身教授,1986获得 “图灵奖” 、2010年获得 “冯诺依曼奖章” 、2016年获得 “中国政府友谊奖” 、2017获得西蒙雷曼创始人奖

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OGipZDAP-1637423203280)(https://i.loli.net/2021/11/13/ZwBUuQPFDi4r3Hj.png)]

基于等价类的思想,拆分子集

其伪代码:

split(s)
	foreach(character c)
		if(c can split S)
			split S into T1,T2,T3.....
			
hopcroft()
	split all nodes into N,A
	while(set is still changes)
		split(S)

现将DFA拆分成,终止状态集A正常状态集N,然后再在N和A里面拆分,直到不能再拆分为止,从大集合到不能再拆分的小集合,即同一个大集合里面的几个状态扫描一个字符能到同样的状态,那么这几个状态就组成了一个集合,反之就要拆分出来,不断这样下去,一直拿到这个最小集合此时这个最小集合就是minDFA

实例

image-20211113235357478

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W81F5HkH-1637423203283)(https://i.loli.net/2021/11/13/6zMjGqfVUlFNrCg.png)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值