java7723百战天虫,课内资源 - 基于JAVA实现的基于DFA的词法分析程序

1 实验目的

根据自己确定的正规表达式,编写、调试一个词法分析程序,对语句进行词法分析,从而更好理解词法分析原理。

2 内容描述

此程序用java编写。程序读取一个文本文件,并对其中的内容进行词法分析,此程序实现了对java程序简单的词法识别,可识别一部分保留字、标识符、操作符,一部分标点符号,同时可以识别行注释(形如//)和块状注释(形如/**/)。最终将识别的token写入指定文件名的文件,输出格式为{“type=”,”code=”,”error=”},对不符合可识别格式的字符进行错误处理。

3 思路方法针对要识别的单词符号写出正则表达式

构造出每个正则表达式对应的NFA

合并所有NFA,并化简为DFA

基于DFA编写代码

代码思路参考核心算法部分

4 假设AR1:保留字的优先级高于标识符

AR2:输入的文件是正常的简单的java程序

AR2:输入的java程序有大小限制,代码行数限制约20行及以内。

5 DFA描述

5.1 RE定义 a -> [a-zA-Z], d->[0-9], c为其他字符, ^*表示除*以为的字符,^/同理

标识符/保留字:(a)(a|d)*

数字: ((-)(d)*(.)( d)*)|( d)*|(-)( d)*|( (d)*(.)( d)*)

块注释(*表示为#): /# ( (^#^/)*|(#(^/)*)*|((^#)*/)* )* #/

行注释://(a|b|c)*(\n)

其他符号的较为简单,这里不再一一列出。

5.2 DFA

01287e7e960cfd9d0707a6dc45a6e8b8.png

6 数据结构定义

6.1 类Token

148da706442784dbfa4df6a11345edf5.png

其中type有Number(数字), Note(行注释), ID,BlockNote(块注释), ReservedWord(保留字), Operater(操作符), Punctuation(标点), Other(其他)。

6.2 类Word

记录每次扫描的字符组成的单词。

49afa1451c68cb6f0cc6de17b4b42320.png

6.3 类Analyser

扫描算法的主要执行类。

a8fa0e57d5018ef3e1770850e1eb8da1.png

7 算法描述

程序主要的方法有:

readCode ()—-从java中读取字符流,并存入codes数组中

analyse(int state, Word word, int index)—-扫描codes数组,以DFA为标准循环提取其中的保留字、标识符、操作符、标点符号,并存入token列表。方法采取循环,state为当前在DFA中的状态,word为识别到一半的单词,index为codes数组的读指针。根据DFA中的状态流向决定程序每次循环下一次的走向

saveResult()—-将扫描获得的token序列写入文本文件

8 运行截图

输入文件内容如下:

3369561c39289472f46673ce2c44275d.png

输出文件内容如下:

226b8e10389fd9306466d0260b6186fb.png

9 问题与解决关于块状注释的识别,遇到*需要确定后一个字符是否/,后一个字符对其判断有影响,目前只能预读取后一个字符进行判断,赞未找到更好的方法

扫描一开始采用递归,在文件字符过长时,会出现stackoverflow的错误。随后将递归改为了while循环,解决了问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值