Tiny C语言编译程序之词法分析Scanner

本文介绍Tiny C语言编译程序的词法分析Scanner部分,讲解了词法分析器scan.c的功能和设计,包括约定如整数类型、标识符规则,以及如何处理注释。词法分析主要通过getToken方法进行,并使用currentToken和tokenString来识别Token的类型和形式。此外,还提到了DFA的设计和构造词法分析器的方法。
摘要由CSDN通过智能技术生成

Tiny C语言编译程序之词法分析Scanner

约定:

  • 仅允许整数类型,不允许实数类型
  • 标识符由大小写英文字母组成,最多52个。其识别按最长匹配原则
  • 整数后紧跟非数字,或标识符后紧跟非字母认为是一个新Token开始
  • 由{ }括起来符号串都认为是注释部分,该部分在词法分析时被过滤掉
  • 识别出的Token由两个变量:currentToken,tokenString识别,其中currentToken代表Token的类属,为一个名为TokenType的枚举类型,在文件globals.h中定义;tokenString代表Token在程序中出现的形式,即其本来面目。例如整数10的currentToken值为NUM,而tokenString值为‘10’;标识符i的currentToken值为ID,而tokenString值为‘i’

画识别符合TINY C语言构词规则的DFA。然后用直接编码的方法构造词法分析器

词法分析器scan.c

/****************************************************/
/* File: scan.c                                     */
/* The scanner implementation for the TINY compiler */
/****************************************************/

#include "globals.h"
#include "util.h"
#include "scan.h"

/* states in scanner DFA */
typedef enum
   { START,INASSIGN,INCOMMENT,INNUM,INID,DONE }
   StateType;

/* lexeme of identifier or reserved word */
char tokenString[MAXTOKENLEN+1];

/* BUFLEN = length of the input buffer for
   source code lines */
#define BUFLEN 256

static char lineBuf[BUFLEN]; /* holds the current line */
static int linepos = 0; /* current position in LineBuf */
static int bufsize = 0; /* current size of buffer string */
static int EOF_flag = FALSE; /* corrects ungetNextChar behavior on EOF */

/* getNextChar fetches the next non-blank character
   from lineBuf, reading in a new line if lineBuf is
   exhausted */
//获得下一字符
static int getNextChar(void)
{ if (!(linepos < bufsize))
  { lineno++;
    if (fgets(lineBuf,BUFLEN-1,source))
    { if (EchoSource) fprintf(listing,"%4d: %s",lineno,lineBuf);
      bufsize = strlen(lineBuf);
      linepos = 0;
      return lineBuf[linepos++];
    }
    else
    { EOF_flag = TRUE;
      return EOF;
    }
  }
  else return lineBuf[linepos++];
}

/*
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
生成 TINY 语言的词法分析程序可以使用 Lex 工具。Lex 是一个在 Unix 和类 Unix 系统上使用的词法分析器生成器,它可以根据用户提供的正则表达式和动作代码生成词法分析器。 下面是一个简单的 TINY 语言的词法分析器的例子: ``` %{ #include <stdio.h> %} %% "begin" { return BEGIN; } "end" { return END; } "if" { return IF; } "then" { return THEN; } "else" { return ELSE; } "while" { return WHILE; } "do" { return DO; } "+" { return ADD; } "-" { return SUB; } "*" { return MUL; } "/" { return DIV; } [0-9]+ { return NUM; } [a-zA-Z]+ { return ID; } [ \t\n\r] { } . { printf("Error\n"); return 0; } %% int main() { int token; while (token = yylex()) { printf("%d ", token); } return 0; } ``` 其中,`%{ %}` 之间的代码是头文件和全局变量的定义。`%%` 之间的代码是正则表达式和动作代码的定义。在这个例子中,我们定义了 TINY 语言中的关键字和运算符的正则表达式,并为每个正则表达式定义了相应的动作代码。`[0-9]+` 表示匹配一个或多个数字,`[a-zA-Z]+` 表示匹配一个或多个字母。 在主函数中,我们使用 `yylex()` 函数来获取下一个词法单元的类型。如果识别到一个词法单元,就会返回相应的 token 值,否则返回 0。 使用 Lex 工具生成词法分析器的命令为: ``` lex lexer.l ``` 其中,`lexer.l` 是包含上述代码的文件名。生成的词法分析器为 `lex.yy.c`,可以通过编译器编译成可执行文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值