1 实验目的
根据自己确定的正规表达式,编写、调试一个词法分析程序,对语句进行词法分析,从而更好理解词法分析原理。
2 内容描述
此程序用java编写。程序读取一个文本文件,并对其中的内容进行词法分析,此程序实现了对java程序简单的词法识别,可识别一部分保留字、标识符、操作符,一部分标点符号,同时可以识别行注释(形如//)和块状注释(形如/**/)。最终将识别的token写入指定文件名的文件,输出格式为{“type=”,”code=”,”error=”},对不符合可识别格式的字符进行错误处理。
3 思路方法针对要识别的单词符号写出正则表达式
构造出每个正则表达式对应的NFA
合并所有NFA,并化简为DFA
基于DFA编写代码
代码思路参考核心算法部分
4 假设AR1:保留字的优先级高于标识符
AR2:输入的文件是正常的简单的java程序
AR2:输入的java程序有大小限制,代码行数限制约20行及以内。
5 DFA描述
5.1 RE定义 a -> [a-zA-Z], d->[0-9], c为其他字符, ^*表示除*以为的字符,^/同理
标识符/保留字:(a)(a|d)*
数字: ((-)(d)*(.)( d)*)|( d)*|(-)( d)*|( (d)*(.)( d)*)
块注释(*表示为#): /# ( (^#^/)*|(#(^/)*)*|((^#)*/)* )* #/
行注释://(a|b|c)*(\n)
其他符号的较为简单,这里不再一一列出。
5.2 DFA
6 数据结构定义
6.1 类Token
其中type有Number(数字), Note(行注释), ID,BlockNote(块注释), ReservedWord(保留字), Operater(操作符), Punctuation(标点), Other(其他)。
6.2 类Word
记录每次扫描的字符组成的单词。
6.3 类Analyser
扫描算法的主要执行类。
7 算法描述
程序主要的方法有:
readCode ()—-从java中读取字符流,并存入codes数组中
analyse(int state, Word word, int index)—-扫描codes数组,以DFA为标准循环提取其中的保留字、标识符、操作符、标点符号,并存入token列表。方法采取循环,state为当前在DFA中的状态,word为识别到一半的单词,index为codes数组的读指针。根据DFA中的状态流向决定程序每次循环下一次的走向
saveResult()—-将扫描获得的token序列写入文本文件
8 运行截图
输入文件内容如下:
输出文件内容如下:
9 问题与解决关于块状注释的识别,遇到*需要确定后一个字符是否/,后一个字符对其判断有影响,目前只能预读取后一个字符进行判断,赞未找到更好的方法
扫描一开始采用递归,在文件字符过长时,会出现stackoverflow的错误。随后将递归改为了while循环,解决了问题