LEX/FLEX词法分析器

LEX/FLEX词法分析器

CONTENTS:

这篇文章的内容包括:

  • lex语法格式

  • linux下flex的安装和使用

  • flex实例

  • flex源代码的编译和使用


Lex/Flex词法分析器

Lex是LEXical compiler的缩写,是Unix环境下非常著名的工具,主要功能是生成一个词法分析器(scanner)的C源码,描述规则采用正则表达式(regular expression)。描述词法分析器的文件*.l,经过lex编译后,生成一个lex.yy.c 的文件,然后由C编译器编译生成一个词法分析器。词法分析器,简单来说,其任务就是将输入的各种符号,转化成相应的标识符(token),转化后的标识符 很容易被后续阶段处理。 —— [ 百度百科 ]

Flex的安装和使用

在使用apt软件包管理器linux系统上我们可以非常方便地安装并使用flex。在终端中输入以下代码安装flex:(可能需要root权限)

$> sudo apt-get install flex

flex代码的源文件往往是以.l为后缀名的。
.l文件通过以下命令编译(以文件名为scanner.l为例):

$> flex scanner.l

编译后在源代码相同目录下会生成一个lex.yy.c,这就是生成的能够执行上述scanner.l功能的c语言代码。使用gcc编译即可生成词法分析程序1

$> gcc lex.yy.c -o scanner

然后将需要分析的文件(以input.txt为例)作为参数传递给scanner执行分析:

$> ./scanner input.txt

Lex语法格式

flex的语法被分为三个部分:

{definitions}
%%
{rules}
%%
{user subroutines}

definitions:

LABEL REGULAR_EXPRESSION

LABEL是这里类字符串的名称,REGULAR_EXPRESSION则是匹配这种字符串的正则表达式。正则表达式的语法主要包括:

符号含义
|
[]括号中的字符取其一
-a-z表示ascii码中介于a-z包括a.z的字符
\转义(flex不能识别除字母外的字符)
*0或多个字符
?0或1个字符
+1或多个字符
^除此之外的其余字符
.除\n外的所有字符,等价于^\n

示例:

1. INT [1-9][0-9]*|[0]  /*整数类型,0或不以0开头的由0-9组成的字符串*/
2. FLOAT [0-9]*[.][0-9]+([eE][+-]?[0-9]*|[0])?f?    /*浮点数格式*/
3. LP \(    /*一个左圆括号*/

注:用%{ %}括起来的语句将被完全写入编译后的c语言文件中。
例如
%{
#include <stdio.h>
int num_id = 0;
%}

rules:

规则部分的语法如下:

{LABEL1} |
{LABLE2} |
...
{ 
/*TODO*/
}

TODO部分是告诉编译器在匹配到字符串之后程序需要做些什么。
例如在匹配到整数后打印这个整数:

{INT} {
    printf("Pick up an integer, value is %d", atoi(yytext));
    printf("Pick up an integer, value is %s", yytext);
}

其中atoi()函数将字符串转换为整数。

user subroutines

此处主要是放置用户需要执行的c语言代码。他们会被原封不动地加入到lex.yy.c文件的末尾。
这里一般用来存放main函数,详细会在后面说明。

FLEX实例

下面通过一个实例来具体展示flex的使用方式,主要功能是扫描并匹配文件中的字符串,并回显其类型和内容,代码如下:

/************************
 * scanner.l
 * @author mist
 * 2015-9-21 23:08
 ************************/
%{
#include "stdio.h"
#include "stdlib.h"
%}

INT_DEX [1-9][0-9]*|[0]
INT_HEX [0][Xx]([1-9][0-9]*|[0])
INT_OCT [0][0-7]
FLOAT [0-9]*[.][0-9]+([eE][+-]?[0-9]*|[0])?f?
SEMI [;]
COMMA [,]
ASSIGNOP [=]
RELOP [>]|[<]|[>][=]|[<][=]|[=][=]|[!][=](^[=])
PLUS [+]
MINUS [-]
STAR [*]
DIV [/]
AND [&][&]
OR [|][|]
DOT [.]
NOT [!]
TYPE int|float
LP \(
RP \)
LB \[
RB \]
LC \{
RC \}
STRUCT struct
RETURN return
IF if
ELSE else 
WHILE while
SPACE [ \n\t]
ID [a-zA-Z_][a-zA-Z_0-9]*
/*end of definition*/

%%
{SEMI} {
    printf("get semmi : %s\n", yytext);

}

{COMMA} {
    printf("get comma : %s\n", yytext);
}
{ASSIGNOP} {
    printf("get assignop : %s\n", yytext);
}

{INT_DEX} |
{INT_HEX} |
{INT_OCT} {
    printf("get an integer: %s\n", yytext);
}

{FLOAT} {
    printf("get a float: %s\n", yytext);
}

{PLUS} | 
{MINUS} |
{DIV} |
{STAR} {
    printf("get an operator: %s\n", yytext);
}

{RELOP} {
    printf("get a relop: %s\n", yytext);
}

{AND} |
{OR} |
{NOT} {
    printf("get a logic operator: %s\n", yytext);
}

{DOT} {
    printf("get a dot: %s\n", yytext);
}
{STRUCT} |
{RETURN} |
{IF} |
{ELSE} |
{WHILE} {
    printf("get keyword: %s\n", yytext);
}

{TYPE} {
    printf("get type: %s\n", yytext);
}

{LP} |
{RP} |
{LB} |
{RB} |
{LC} |
{RC} {
    printf("get brackets : %s\n", yytext);
}

{SPACE} |
. {
/*ABANDON THESE CHARACTORS*/
}

{ID} {
    printf("get an ID: %s\n", yytext);
}
%%
int yywrap() {
  return 1;
}

int main(int argc, char** argv) {
   if (argc > 1) {
       if (!(yyin = fopen(argv[1], "r"))) {   
           perror(argv[1]);
           return 1;
       }
   }
   while (yylex());
   return 0;

我们需要为生成的分析程序编写main函数。首先需要通过yyin来获取指向被分析文件的文件FILE指针,一般文件的路径通过控制台的第二个参数获得。分析部分的实体在函数yylex()中。
yywrap()用于判断是否已经扫描完了所有的文件。如果它在最后一个文件的末尾被调用,则返回值为1。此时程序将停止分析,可以用来扫描多个文件。

输入文本:
int float {}()[] 0
0x0 0x123
123.5
.3e-10f
= >= || && ! ; ,
this_is_an_id
id123
if then else

输出:

get type: int
get type: float
get brackets : {
get brackets : }
get brackets : (
get brackets : )
get brackets : [
get brackets : ]
get an integer: 0
get an integer: 0x0
get an integer: 0x123
get a float: 123.5
get a float: .3e-10f
get assignop : =
get a relop: >=
get a logic operator: ||
get a logic operator: &&
get a logic operator: !
get semmi : ;
get comma : ,
get an ID: this_is_an_id
get an ID: id123
get keyword: if
get an ID: then
get keyword: else

另外附上词法要求:
INT  /* A sequence of digits without spaces1 */
FLOAT  /* A real number consisting of digits and one decimal point. The deci-
mal point must be surrounded by at least one digit2 */
ID  /* A character string consisting of 52 upper- or lower-case alphabetic, 10
numeric and one underscore characters. Besides, an identifier must not start
with a digit3 */
SEMI  ;
COMMA  ,
ASSIGNOP  =
RELOP  > | < | >= | <= | == | !=
PLUS  +
MINUS  -
STAR  *
DIV  /
AND  &&
OR  ||
DOT  .
NOT  !
TYPE  int | float
LP  (
RP  )
LB  [
RB  ]
LC  {
RC  }
STRUCT  struct
RETURN  return
IF  if
ELSE  else
WHILE  while

1) 词法单元INT表示的是所有(无符号)整型常数。一个十进制整数由0~9十个数字组
成,数字与数字中间没有如空格之类的分隔符。除“0”之外,十进制整数的首位数字
不为0。例如,下面几个串都表示十进制整数:0、234、10000。为方便起见,你可以
假设(或者只接受)输入的整数都在32bits位之内。

2) 整型常数还可以以八进制或十六进制的形式出现。八进制整数由0~7八个数字组成并以
数字0开头,十六进制整数由0~9、A~F(或a~f)十六个数字组成并以0x或者0X开头。
例如,0237(表示十进制的159)、0xFF32(表示十进制的65330)。

3) 词法单元FLOAT表示的是所有(无符号)浮点型常数。一个浮点数由一串数字与一个
小数点组成,小数点的前后必须有数字出现。例如,下面几个串都是浮点数:0.7、
12.43、9.00。为方便起见,你可以假设(或者只接受)输入的浮点数都符合IEEE754单
精度标准(即都可以转换成C语言中的float类型)。

4) 浮点型常数还可以以指数形式(即科学记数法)表示。指数形式的浮点数必须包括基
数、指数符号和指数三个部分,且三部分依次出现。基数部分由一串数字(0~9)和一
个小数点组成,小数点可以出现在数字串的任何位置;指数符号为“E”或“e”;指
数部分由可带“+”或“”(也可不带)的一串数字(0~9)组成,“+”或“”(如
果有)必须出现在数字串之前。例如01.23E12(表示1.23  1012)、43.e-4(表示43.0 
10-4)、.5E03(表示0.5  103)。

5) 词法单元ID表示的是除去保留字以外的所有标识符。标识符可以由大小写字母、数字
以及下划线组成,但必须以字母或者下划线开头。为方便起见,你可以假设(或者只
接受)标识符的长度小于32个字符。

6) 除了INT、FLOAT和ID这三个词法单元以外,其它产生式中箭头右边都表示具体的字
符串。例如,产生式TYPE  int | float表示:输入文件中的字符串“int”和“float”都
将被识别为词法单元TYPE。
2.2
High-level Definitions


  1. 生成词法分析程序 可能会发生yywrap未定义的错误。yywrap必须由用户亲自编写,一般按如下形式即可
    void yywrap() { return 1; }
  • 29
    点赞
  • 113
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
LEX是一个生成词法分析器的工具,它可以根据用户提供的正则表达式和动作列表,生成一个C语言词法分析器。如果要在Java中使用LEX生成的词法分析器,可以通过JNI调用C语言的词法分析器,或者使用JFlex这个专门为Java开发的词法分析器生成工具。 下面是使用JFlex生成Java词法分析器的步骤: 1. 安装JFlex 可以在JFlex官网上下载安装包,然后按照说明进行安装。 2. 编写词法规则文件 编写一个包含词法规则的文件,例如: ``` %{ import java.io.*; %} %class Lexer %unicode %public %type String %% "if" { return "IF"; } "else" { return "ELSE"; } "while" { return "WHILE"; } "(" { return "("; } ")" { return ")"; } "{" { return "{"; } "}" { return "}"; } ";" { return ";"; } [ \t\r\n] ; // ignore whitespaces . { throw new IOException("Invalid character: " + yytext()); } %% public static void main(String[] args) throws IOException { Lexer lexer = new Lexer(new FileReader(args[0])); String token; while ((token = lexer.yylex()) != null) { System.out.println(token); } } ``` 上面的规则定义了几个关键字和一些符号,同时忽略了空格和换行符。如果遇到未定义的字符,会抛出异常。 3. 生成词法分析器 使用JFlex生成词法分析器,命令如下: ``` jflex lexer.flex ``` 这会生成一个名为Lexer.java的文件,其中包含了词法分析器的代码。 4. 编译运行 将生成的Java文件编译成class文件,然后运行即可: ``` javac Lexer.java java Lexer test.txt ``` 其中test.txt是包含源代码的文件。运行结果会输出每个识别出的token。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值