【编译原理】用Lex做词法分析

08年9月入学,12年7月毕业,结束了我在软件学院愉快丰富的大学生活。此系列是对四年专业课程学习的回顾,索引参见:http://blog.csdn.net/xiaowei_cqu/article/details/7747205


用Lex做词法分析


Lex编译器将输入的模式转换成一个状态转换图,并生成相应的实现代码,并存放到文件lex.yy.c中,这些代码模拟了状态转换图。


用Lex创建一个词法分析器
冲突解决规则:
1) 总是选择最长的前缀
2) 如果最长的可能前缀与多个模式匹配,总是选择Lex中先被列出的模式。

【实验步骤】


1、实验环境配置

安装Parser Generator,并编译lex和yacc函数库
使用向导配置时,用的VS2010,属性设置如下(有些库是用的VC++6.0)
Compiler Bin Directory C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO 10.0\VC\BIN
Compiler Bin Directory(2) C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO 10.0\COMMON7\IDE
Compiler Include Directory C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO 10.0\VC\INCLUDE
Compiler Include Directory(2) C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO\VC98\INCLUDE
Compiler Library Directory C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO 10.0\VC\LIB
Compiler Library Directory(2) C:\PROGRAM FILES\MICROSOFT VISUAL STUDIO\VC98\LIB

2、编写Lex程序

(1)练习3.5.2:编写一个Lex程序。该程序拷贝一个文件,并将文件中的每个非空的空白符序列替换为单个空格。
编写Lex程序如下:

 [\t]+  {printf(“”);}
表示遇到连续多个空白符(或制表符),则替换为一个空格符
\n|.    {printf(“%s”,yytext);}
表示其余的语句均照常打印出来

实验结果
读入文件:

替换掉空白符后结果:


(2)练习3.5.3:编写一个Lex程序。该程序拷贝一个C文件,并将程序中的关键字float的每个实例替换成double

编写Lex程序如下:


\”.*\”  {printf(“%s”,yytext);}
表示如果是在双引号(“)中(即为字符串),则照常打印
float/[ \t]+  {printf(“double”);}
表示如果遇到float,且附加模式是后面跟有空白符,则将float替换为double
在这句话前面加上
[^ \t\n]+ {printf(“%s”,yytext);}
(连续的非空白符),是为了保证当float并非关键字时,如afloat,不会被替换为adouble.

实验结果
读入C文件:


替换掉关键字float后如下:


(3)练习3.5.4:编写一个Lex程序。该程序把一个文件改变成为“Pig latin”文。明确的讲,假设该文件是一个用空白符分隔开的单词(即字母串)序列。每当你遇到一个单词时:
1)如果第一个字母是辅音字母,则将它移到单词结尾,并加上ay
2)如果第一个字母是元音字母,则只在单词的结尾加上ay
所有非字母的字符不加处理直接拷贝到输出

编写Lex程序如下:


{YuanYin}({Letter})*/[ \t\n]+ {printf(“%say”,yytext);}
表示遇到元音字母开头的字母串,且附加模式跟有空白符(确保为单词),则在单词结尾加上ay
{FuYin}({Letter})*/[ \t\n]+ {printf(”%s%cay”,&yytext[1],yytext[0]);}
表示遇到辅音字母开头的字母串,且附加模式跟有空白符(确保为单词),则从单词第二个字母开始输出,之后输出第一个字母,再在结尾加上ay

实验结果
输入aword bword “word”,转换成“Pig Latin”文结果:

【结果分析】

(1)通过实验熟悉了Lex做词法分析。在定义规则时,对Lex解决冲突的两个原则体会尤深——总是选择最长的前缀;如果最长的可能前缀与多个模式匹配,总是选择Lex中先被列出的模式。
(2)实验中几个题目并不复杂,但却很难考虑到所有的情况,如第二个练习替换float时,不能只遇到float即可,还要判断其是否为关键字。在后面发现实验中忘了考虑float单词出现在注释中的情况。不过考虑方法和进阶实验中的考虑相似。

转载请注明出处:http://blog.csdn.net/xiaowei_cqu/article/details/7760927





相关推荐
实验二 词法分析器 一、实验目的 掌握词法分析器的构造原理,掌握手工编程或LEX编程方法之一。 二、实验内容 编写一个LEX源程序,使之生成一个词法分析器,能够输入的源程序转换为单词序列输出。 三、实验环境 Flex+VC6.0 四、实验注意 1.Id正则表达式:{letter}({letter}|{digit})* 2.Num正则表达式:{digit}+(\.{digit}+)?(E[+-]?{digit}+)? 3.注释:(\/\*(.)*\*\/) 4.关键字再加上其他字符就又能编程id,所以在词法分析时,id的判断应该放在关键字前面,这样才不会误判 5.由于本程序知识简单的打印数字,因此没有考虑数字的转换 6.">="比">"多一个字符,它应该放在前面判断,其他类似的也应该如此安排 五、实验代码 ******************************************************************************* 实验文件:lex.l、lex.yy.c 实验结果:lex.exe 运行方式:打开lex.exe,弹出input.txt,在其中输入所要测试的程序,保存并关闭,即可在output.txt中看到所得结果 ******************************************************************************* %{ void Install(char *type); %} %option noyywrap delim [ \t] newline [\n] digit [0-9] num {digit}+(\.{digit}+)?(E[+-]?{digit}+)? letter [A-Za-z] id {letter}({letter}|{digit})* key ("if"|"while"|"do"|"break"|"true") basic ("int"|"float"|"bool"|"char") op (">="|"<="|"=="|">"|"<"|"="|"!="|"+"|"-"|"*"|"/") comment (\/\*(.)*\*\/) %% delim {;} newline {printf("\n");} {num} {Install("Num");} {key} {Install("Key");} {basic} {Install("Basic");} {op} {Install("Op");} ";" {Install("Comma");} {id} {Install("ID");} {comment} {Install("Comment");} "(" | "[" | "{" {Install("lbracket");} ")" | "]" | "}" {Install("rbracket");} %% void Install(char *s) { fprintf(yyout, "%s:%s ", s, yytext); } int main() { printf("please input the test program in input.txt\n"); system("input.txt"); yyin = fopen("input.txt", "r"); yyout = fopen("output.txt", "w" ); yylex(); fclose(yyout); fclose(yyin); printf("analysis result in output.txt\n"); system("output.txt"); return 0; } 六、实验小结 本次的实验由于使了flex,所以代码较短,麻烦的事flex的正则式表达,由于该使规则只有简单介绍,而网上找的教程难免有比重就轻之嫌,所以得到上述表达式着实费力,且有的没有成功,例如bracket的(\ ((.)*\ ))或者("("(.)*")")使时都没有成功,所以便单独写出,有点不伦不类。至于其他的,都较为简单,完。
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页