编译原理(二)词法分析:4.从正规式到词法分析器


【编译原理博客列表】》》》》》》


构造词法分析器(从正规式到词法分析器)的一般方法和步骤:
→ 正 规 式 → N F A → 确 定 化 D F A → 最 小 化 D F A → 分 析 器 \xrightarrow{}{正规式}\xrightarrow{}{NFA}\xrightarrow{确定化}{DFA}\xrightarrow{最小化}{DFA}\xrightarrow{}{分析器} NFA DFA DFA

  • 设计正规式:
    用正规式描述模式;
  • 构造一个NFA:
    为每个正规式构造一个NFA,它识别正规式所表示的正规集;
  • 确定化:
    将构造的NFA转换成等价的DFA
  • 最小化:
    优化DFA,使其状态数最少
  • 从优化后的DFA构造词法分析器。

一、构造NFA(算法2.2 Thompson 算法)

  • 输入:字母表上的正规式r
  • 输出:接受L(r)的NFA N
  • 方法:将正规式分解成小部分,再组合
    在这里插入图片描述

例2.11 用Thompson算法构造正规式r=(a|b)*abbNFA N(r)

在这里插入图片描述
在这里插入图片描述
注意:或运算一般是2、3再4、5,连完再换行

二、确定化(从NFA到DFA)

1.两个表达式

(1)smove(S, a)

定义:

  • 从状态集S出发,标记为a的下一状态全体(即状态集)
  • 与move(s, a)的唯一区别:用状态集取代状态。

例子:
在这里插入图片描述
状态集A={0,1,2,4,7},A中可以经过字符a的是状态2和7,分别可以到达状态3和8,则smove(A,a)={3,8}

(2)算法2.4 ε-闭包(T)

定义:从状态集T出发,不经任何字符达到的状态全体(即状态集)

满足条件:
(1) T中所有状态属于ε-闭包(T);
(2) 任何smove(ε-闭包(T),ε)属于ε-闭包(T)
(3) 再无其他状态属于ε-闭包(T)。

计算方法:
(1)加入状态集T中所有状态
(2)将smove(目前的ε-闭包(T),ε)中得到的新的状态加入ε-闭包(T)
(3)不断重复(2)直到再无其他状态属于ε-闭包(T)

function ε-闭包(T) is
begin
	for T中每个状态t 
	loop	加入t到U; push(t);
	end loop;
	while  栈不空
	loop	pop(t); 
		for 每个u=move(t, ε)
		loop	if u不在U中 then 加入u到U; push(u); end if; 
		end loop;
	end loop; 
	return U;
endε-闭包; 

例子:求ε-闭包({s2})
在这里插入图片描述
加入{s2}:ε-闭包({s2})={s2}
smove({s2},ε)={s4},则ε-闭包({s2})={s2,s4}
smove({s2,s4},ε)={s4,s5},则ε-闭包({s2})={s2,s4,s5}

2.算法2.3 (并行)模拟NFA

引子

并行的意思是采用状态集和smove()

算法

  • 输入:NFA N={S,∑,move,s0,F},x(eof), s0, F
  • 输出:若N接受x,回答“yes”,否则“no”
  • 方法:用下边的过程对x进行识别。S是一个状态的集合

伪代码:就是不断的按下一个字符走到头,看看最终的结果和F是否有交集(可能有别的非F状态)。

S := ε-闭包({s0});         -- 所有可能初态的集合
ch := nextchar;
while  ch ≠ eof loop 
	S:=ε-闭包(smove(S,ch))-- 所有下一状态的集合
	ch := nextchar;
end loop;
if	S∩F≠Φ	then return “yes”;  else return “no”; 
end if;

例2.13:在NFA上识别输入序列abb和abab

在这里插入图片描述
识别abb:
计算初态集: ε − 闭 包 ( 0 ) = 0 , 1 , 2 , 4 , 7 ε-闭包({0}) ={0,1,2,4,7} ε(0)=0,1,2,4,7, A
A出发经a到达: ε − 闭 包 ( s m o v e ( A , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(A,a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(A,a))=3,8,1,2,4,6,7, B
B出发经b到达: ε − 闭 包 ( s m o v e ( B , b ) ) = 5 , 9 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(B,b))={\textcolor{gold}{5,9},1,2,4,6,7} ε(smove(B,b))=5,9,1,2,4,6,7, C
C出发经b到达: ε − 闭 包 ( s m o v e ( C , b ) ) = 5 , 10 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(C,b))={\textcolor{gold}{5,10},1,2,4,6,7} ε(smove(C,b))=5,10,1,2,4,6,7,D
识别的路径为:A a B b C b D
结束且D∩{10}={10},接受。

识别abab:
初态集:ε-闭包(s0)={0,1,2,4,7} A
A出发经a到达: ε − 闭 包 ( s m o v e ( A , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(A,a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(A,a))=3,8,1,2,4,6,7, B
B出发经b到达: ε − 闭 包 ( s m o v e ( B , b ) ) = 5 , 9 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(B,b))={\textcolor{gold}{5,9},1,2,4,6,7} ε(smove(B,b))=5,9,1,2,4,6,7, C
C出发经a到达: ε − 闭 包 ( s m o v e ( C , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(C,a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(C,a))=3,8,1,2,4,6,7, B
B出发经b到达: ε − 闭 包 ( s m o v e ( B , b ) ) = 5 , 9 , 6 , 7 , 1 , 2 , 4 ε-闭包(smove(B,b))={\textcolor{gold}{5,9},6,7,1,2,4} ε(smove(B,b))=5,9,6,7,1,2,4, C
识别路径为:A a B b C a B b C
因为C∩{10}=Φ,所以不接受

3.算法2.5 “子集法”构造DFA

  • 输入:NFA N
  • 输出:等价的DFA D。初态含有NFA初态,终态集是含有NFA终态的状态集合
  • 方法:

将ε-闭包({s0})得到的状态集,让其smove()每个字符,得到的不同的状态集再让其smove()每个字符,重复直到所有的状态集都smove()每个字符。

两个数据结构:Dstates(状态)Dtran(状态转移)

初始化:ε-闭包({s0})是Dstates仅有的状态,且尚未标记;

while Dstates有尚未标记的状态T 
loop  标记T;
	for  每一个字符a   		-- T中向外转移边的标记
	loop
		U := ε-闭包(smove(T,a));
		if U非空 
		then Dtran[T,a] := U; 
		     if   U不在Dstates中 
		     then U作为尚未标记的状态加入Dstates;
		     end if;
		end if;
	end loop;
end loop;

例2.15 用算法2.5构造(a|b)*abb的DFA

在这里插入图片描述
A*表示新的状态集第一次创建,A表示这是已出现的状态集A)
ε − 闭 包 ( 0 ) = 0 , 1 , 2 , 4 , 7 ε-闭包({0})={0,1,2,4,7} ε(0)=0,1,2,4,7 A*
ε − 闭 包 ( s m o v e ( A , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(A, a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(A,a))=3,8,1,2,4,6,7 B*
ε − 闭 包 ( s m o v e ( A , b ) ) = 5 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(A, b))={\textcolor{gold}{5},1,2,4,6,7} ε(smove(A,b))=5,1,2,4,6,7 C*
ε − 闭 包 ( s m o v e ( B , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(B, a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(B,a))=3,8,1,2,4,6,7 B
ε − 闭 包 ( s m o v e ( B , b ) ) = 5 , 9 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(B, b))={\textcolor{gold}{5,9},1,2,4,6,7} ε(smove(B,b))=5,9,1,2,4,6,7 D*
ε − 闭 包 ( s m o v e ( C , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(C, a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(C,a))=3,8,1,2,4,6,7 B
ε − 闭 包 ( s m o v e ( C , b ) ) = 5 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(C, b))={\textcolor{gold}{5},1,2,4,6,7} ε(smove(C,b))=5,1,2,4,6,7 C
ε − 闭 包 ( s m o v e ( D , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(D, a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(D,a))=3,8,1,2,4,6,7 B
ε − 闭 包 ( s m o v e ( D , b ) ) = 5 , 10 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(D, b))={\textcolor{gold}{5,10},1,2,4,6,7} ε(smove(D,b))=5,10,1,2,4,6,7 E*
ε − 闭 包 ( s m o v e ( E , a ) ) = 3 , 8 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(E, a))={\textcolor{gold}{3,8},1,2,4,6,7} ε(smove(E,a))=3,8,1,2,4,6,7 B
ε − 闭 包 ( s m o v e ( E , b ) ) = 5 , 1 , 2 , 4 , 6 , 7 ε-闭包(smove(E, b))={\textcolor{gold}{5},1,2,4,6,7} ε(smove(E,b))=5,1,2,4,6,7 C

识别abb和abab:
A a B b D b E,接受
A a B b D a B b D,不接受

在这里插入图片描述

4.算法2.3和算法2.5关系

  • 共同点:确定化,即ε-闭包(smove(S, a))
  • 区别:一条路径的确定化与全部路径的确定化

三、最小化DFA

1.可区分与不可区分

概念

定义2.7
对于任何两个状态t和s,若从一状态出发接受输入字符串ω,而从另一状态出发不接受ω,或者从t出发和从s出发到达不同的接受状态,则称ω对状态t和s是可区分的。

设想任何输入序列ω对s和t均是不可区分的,则说明从s出发和从t出发,分析任何输入序列ω均得到相同结果。

划分Π:Π1={ABCD,E},其内元素是组G
G:ABCD是一个组,E是一个组
组的分裂

  • 不分裂:不可区分的组内状态,还写在一起
  • 分裂:可区分的组内状态,分开

意思

  • 可区分:证明是不同的道路,不可合并

  • 不可区分:是重复的道路,因此,s和t可以合并成一个状态。

最小化DFA就是将不可区分的状态合并。

例子:

m(A,a)=B, m(A,b)=C
m(B,a)=B, m(B,b)=D
m(C,a)=B, m(C,b)=C
其中A和C就是不可区分的(得到的下一状态都一样),A和B、B和C就是可区分的(得到的下一状态有不一样)。

组{ABC}→{AC,B}

2.算法2.6 最小化DFA的状态数

  • 输入:DFA D={S,∑,move,s0,F}
  • 输出:等价的D'={S',∑,move',s0',F'}(D’状态数最少)
  • 方法:

1.初始划分:Π={非终态,终态}
2.利用可区分的概念,反复分裂划分中的组Gi,直到不可再分裂;
3.由最终划分构造D’,关键是选代表和修改状态转移;
4.消除可能的死状态和不可达状态。

例2.17 用算法2.6化简DFA

在这里插入图片描述

m(A,a)=B, m(A,b)=C
m(B,a)=B, m(B,b)=D
m(C,a)=B, m(C,b)=C
m(D,a)=B, m(D,b)=E
m(E,a)=B, m(E,b)=C

初始化划分Π1={ABCD,E}
非终态部分中只有状态A和C是不可区分的,则{ABCD}→{AC,B,D}
终态部分中只用状态E,
所以Πfinal={AC,B,D,E}

根据Πfinal构造D’:
① 选代表,用A代表AC组(把C用A代替)
② 修改状态转移:

m(A,a)=B, m(A,b)=A
m(B,a)=B, m(B,b)=D
m(D,a)=B, m(D,b)=E
m(E,a)=B, m(E,b)=A

用0、1、2、3
代替A、B、D、E

四、由DFA构造词法分析器

1.表驱动型的词法分析器

在表驱动的词法分析器中,DFA是被动的,需要一个驱动器来模拟DFA的行为,以实现对输入序列的分析。
在这里插入图片描述

2.直接编码的词法分析器

直接编码的词法分析器,将DFA和DFA识别输入序列的过程合并在一起,直接用程序代码模拟DFA识别输入序列的过程。

状态和状态转移与语句的对应关系
① 初态→程序的开始;
② 终态→程序的结束(不同终态return不同记号);
③ 状态转移→分情况或者条件语句(case/if);
④ 环→循环语句(loop);
⑤ return满足最长匹配原则。

例:识别(a|b)*abb的程序框架

void main(){ 	char buf[]="abba#", *ptr=buf;
	while (*ptr!='#' ){
l0:		while (*ptr=='b') ptr++;			// state 0
	    switch(*ptr)
	    {
    		case 'a': ptr++; 
l1:     	while (*ptr=='a') ptr++;	// state 1
	        switch (*ptr)
	        { 
	        	case 'b': ptr++;
            	switch (*ptr)	// state 2
        		{
        			case 'a': ptr++; goto l1;
					case 'b': ptr++;
					switch (*ptr)	// state3
					{
						case 'a':	ptr++; goto l1;
						case 'b':	ptr++; goto l0;
						case '#':	cout<<"yes"; return;
						default:	goto le;						     }
						default:	goto le;
					}
				default: goto le;
			}
			default: goto le;
		}
	}
le: cout << "no" << endl;
} // 看实例运行

3.两类分析器的比较

在这里插入图片描述

  • 6
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
词法分析 一、实验目的: 通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。 编制一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。并依次输出各个单词的内部编码及单词符号自身值。(遇到错误时可显示“Error”,然后跳过错误部分继续显示) 、实验说明 1、 词法分析器的功能和输出格式 词法分析器的功能是输入源程序,输出单词符号。词法分析器的单词符号常常表示成以下的元式(单词种别码,单词符号的属性值)。本实验中,采用的是一类符号一种别码的方式。 2、 单词的BNF表示 -> ->|| |ε -> -> |ε -> + -> - -> > -> >= 三、实验要求 (一)准备: 1.阅读课本有关章节,明确语言的语法,写出基本保留字、标识符、常数、运算符、分隔符和程序例。 2.初步编制好程序。 3.准备好多组测试数据。 ()上课上机: 将源代码拷贝到机上调试,发现错误,再修改完善。 第次上机调试通过。 (三)程序要求: 程序输入/输出示例: 如源程序为C语言。输入如下一段: main() { int a,b; a = 10; b = a + 20; } 要求输出如下: (2,”main”) (5,”(“) (5,”)“) (5,”{“) (1,”int”) (2,”a”) (5,”,”) (2,”b”) (5,”;”) (2,”a”) (4,”=”) (3,”10”) (5,”;”) (2,”b”) (4,”=”) (2,”a”) (4,”+”) (3,”20”) (5,”;”) (5,”}“) 要求: 识别保留字:if、int、for、while、do、return、break、continue; 单词种别码为1。 其他的都识别为标识符;单词种别码为2。 常数为无符号整形数;单词种别码为3。 运算符包括:+、-、*、/、=、>、=、<=、!= ; 单词种别码为4。 分隔符包括:,、;、{、}、(、); 单词种别码为5。 以上为参考,具体可自行增删。 (四)程序思路 这里以开始定义的C语言子集的源程序作为词法分析程序的输入数据。在词法分析中,自文件头开始扫描源程序字符,一旦发现符合“单词”定义的源程序字符串时,将它翻译成固定长度的单词内部表示,并查填适当的信息表。经过词法分析后,源程序字符串(源程序的外部表示)被翻译成具有等长信息的单词串(源程序的内部表示),并产生两个表格:常数表和标识符表,它们分别包含了源程序中的所有常数和所有标识符。 0.定义部分:定义常量、变量、数据结构。 1.初始化:从文件将源程序全部输入到字符缓冲区中。 2.取单词前:去掉多余空白。 3.取单词后:去掉多余空白(可选,看着办)。 4.取单词:利用实验一的成果读出单词的每一个字符,组成单词,分析类型。(关键是如何判断取单词结束?取到的单词是什么类型的单词?)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值