编译原理------词法分析器C/C++代码实现

一、实验目的

设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。

二、实验内容

2.1 待分析的简单的词法

(1)关键字:

 begin  if  then  while  do  end

所有的关键字都是小写。

(2)运算符和界符

: =  +  -  *  /  <  <=  <>  >  >=  =  ; (  )  #

(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:

ID = letter (letter | digit)*

NUM = digit digit*

(4)空格有空白、制表符和换行符组成。空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。

2.2 各种单词符号对应的种别码:

表2.1 各种单词符号对应的种别码

单词符号

种别码

单词符号

种别码

bgin

1

17

If

2

:=

18

Then

3

<

20

wile

4

<>

21

do

5

<=

22

end

6

>

23

lettet(letter|digit)*

10

>=

24

digit digit*

11

=

25

+

13

26

14

(

27

*

15

)

28

/

16

#

0

2.3 词法分析程序的功能:

输入:所给文法的源程序字符串。

输出:二元组(syn,token或sum)构成的序列。

其中:syn为单词种别码;

      token为存放的单词自身字符串;

      sum为整型常数。

例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:

(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……

 

程序中需要用到的主要变量为syn,token和sum。

①token用来存放构成单词符号的字符串;②sum用来整型单词;③syn用来存放单词符号的种别码。

#include <iostream>
#include <string.h>
using namespace std;
char key[6][20] = {"begin","if","then","while","do","end"};//定义一个二维数组存放关键字 
char token[20];	//存放字符(单词) 
//判断关键字 
int isKey(char s[])
{
	for(int i = 0; i<6;i++)
	{
		if(strcmp(s,key[i]) == 0)
		{
			return i+1;	//关键字的种别码依次为 begin=1,if=2,then=3,while=4,do=5,end=6即为 i+1 的值 
		}
	}
	return -1;
}
//判断是不是字母 
bool isChar(char ch)
{
	if((ch>='a' && ch<='z') || (ch>='A' && ch<='Z'))
	return true;
	else return false;
}
//判断是不是数字 
bool isNum(char ch)
{
	if(ch>='0' && ch<='9')
	return true;
	else
	return false;
}
//核心子程序
void scanner(int &syn,int &p,char s[])
{
	int count = 0;
	if(s[p] == ' ') p++;
	//开头是字母
	if(isChar(s[p]))
	{
		while(isNum(s[p]) || isChar(s[p]))
		{
			token[count++] = s[p];
			p++;
		}
		token[count] = '\0';	//'\0'作为结束符 ,将单词分隔开 
		syn = isKey(token);
		if(syn == -1)	
		{
			syn = 10;	//标识符letter(letter|digit) *
		}
	}
	
	//开头是数字
	else if(isNum(s[p]))
	{
		while(isNum(s[p]))
		{
			token[count++] = s[p];
			p++;
		}
		token[count] = '\0';//结束标识 
		syn = 11;	//数字digit(digit) *
	}
	
	//如果是运算符或者界符
	else
	{	
		//先处理没有争议的字符 
		switch(s[p])
		{
			case '+': syn = 13;token[0] = s[p];token[1]='\0';break;
			case '-': syn = 14;token[0] = s[p];token[1]='\0';break;
			case '*': syn = 15;token[0] = s[p];token[1]='\0';break;
			case '/': syn = 16;token[0] = s[p];token[1]='\0';break;
			case '=': syn = 25;token[0] = s[p];token[1]='\0';break;
			case ';': syn = 26;token[0] = s[p];token[1]='\0';break;
			case '(': syn = 27;token[0] = s[p];token[1]='\0';break;
			case ')': syn = 28;token[0] = s[p];token[1]='\0';break;
			case '#': syn = 0 ;token[0] = s[p];token[1]='\0';break;
		}
		
		
		//处理有争议的
		//: :=
		if(s[p] == ':')
		{
			token[count++] = s[p];
			if(s[p+1] == '=')
			{
				p++;
				token[count++] = s[p];
				syn = 18;
			}
			else
			{
				syn = 17;
			}
			token[count] = '\0';
		}
		
		//< <> <=
		if(s[p] == '<')
		{
			token[count++] = s[p];
			if(s[p+1] == '>')
			{
				p++;
				token[count++] = s[p];
				syn = 21;
			}
			else if(s[p+1] == '=')
			{
				p++;
				token[count++] = s[p];
				syn = 22;
			}
			else
			{
				syn = 20;
			}
			token[count] = '\0';
		}
		
		//> >=
		if(s[p] == '>')
		{
			token[count++] = s[p];
			if(s[p+1] == '=')
			{
				p++;
				token[count++] = s[p];
				syn = 24;
			}
			else
			{
				syn = 23;
			}
			token[count] = '\0';
		}
		
		//后移 
		p++;	//判断运算符和界符的这部分由于指针 p 没有向后指,所以需要将指针 p 向后移一位 
	}
	 
} 
int main()
{
	char s[100];	//输入字符串 
	while(cin>>s)
	{
		int p = 0;
		int syn;
		while(p < strlen(s))	//循环条件 ,p还未指到字符串最后	
		{
			scanner(syn,p,s);
			cout<<'<'<<token<<','<<syn<<'>'<<endl;
		}
	}
	return 0;
}
 

输入begin x:=9: if x>9 then x:=2*x+1/3; end #

运行结果为:

  • 106
    点赞
  • 732
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
词法分析器是编译器中的重要组成部分,用于将源代码中的字符流转化为单词流,方便后续语法分析器进行处理。在c++语言中,我们可以使用lex和flex工具来生成词法分析器。 lex是Unix系统下的一个词法分析器生成工具,而flex是其在Windows下的实现。使用lex/flex可以通过定义正则表达式和处理规则来生成词法分析器。以下是一个简单的例子: 首先,我们定义一个名为lex.l的文件,其中包含了我们需要识别的关键字和符号: ``` %{ #include <iostream> using namespace std; %} %% int { cout << "int\n"; } float { cout << "float\n"; } if { cout << "if\n"; } else { cout << "else\n"; } [(){};] { cout << yytext << "\n"; } [0-9]+ { cout << "number: " << yytext << "\n"; } [a-zA-Z]+ { cout << "identifier: " << yytext << "\n"; } [ \t] ; // skip whitespace \n ; // skip newline . ; // skip other characters %% int main() { yylex(); return 0; } ``` 在上面的代码中,我们使用%{和%}来定义c++代码,用%%来分隔正则表达式和处理规则。正则表达式用于识别源代码中的单词,而处理规则则用于指定识别到每个单词后需要执行的操作。 最后在main函数中调用yylex()函数来启动词法分析器。 接下来,在终端中执行以下命令将lex.l文件编译成可执行文件: ``` flex lex.l g++ lex.yy.c -lfl ./a.out ``` 输入以下源代码: ``` int main() { if (a > 10) cout << "a is greater than 10" << endl; else cout << "a is not greater than 10" << endl; } ``` 运行后,输出如下: ``` int identifier: main ( ) { if ( identifier: a > number: 10 ) identifier: cout << "a is greater than 10" ; else identifier: cout << "a is not greater than 10" ; } ``` 以上就是一个简单的c++词法分析器实现方法。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值