一个简单词法分析器的C语言实现

本文介绍了一个使用C语言实现的简单词法分析器。该分析器能够处理包含关键字、运算符、标识符等基本元素的伪代码,并将其转换为一系列的词法单元。文章提供了完整的源代码及运行示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一个简单词法分析器的C语言实现

1.1实验描述

例如:对源程序:

begin x:=9: if x>9 then x:=2*x+1/3; end #


的源文件,经过词法分析后输出如下序列:

<1,begin><10,x><18,:=><11,9><26,;><2,if>……

 

1.1.1待分析的简单的词法

1)关键字:

 begin  if  then  while  do  end

所有的关键字都是小写。

2)运算符和界符

 =  +  -  *  /  <  <=  <>  >  >=  =  ; (  )  #

3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:

ID = letter (letter | digit)*

NUM = digit digit*

4)空格有空白、制表符和换行符组成。空格一般用来分隔IDSUM、运算符、界符和关键字,词法分析阶段通常被忽略。

1.1.2 各种单词符号对应的种别码:

表4.2.1 各种单词符号对应的种别码

单词符号

种别码

单词符号

种别码

bgin

1

17

If

2

=

18

Then

3

20

wile

4

<> 

21

do

5

<=

22

end

6

23

lettetletter|digit*

10

>=

24

dight dight*

11

=

25

+

13

26

14

(

27

*

15

)

28

/

16

#

0



2.2实现源码参考
#include <stdio.h>  
#include <string.h>  
  
char prog[80],token[8],ch;  
int syn,p,m,n,sum;  
char *rwtab[6]={"begin","if","then","while","do","end"};  
   
void scaner(void);  
  
main()  
{  
    p=0;  
    printf("\n please input a string(end with '#'):\n");  
      
    do{  
            scanf("%c",&ch);  
            prog[p++]=ch;  
    }while(ch!='#');  
      
    p=0;  
    do{  
            scaner();  
            switch(syn)  
            {  
                case 11:  
                    printf("( %-10d%5d )\n",sum,syn);  
                break;  
                  
                case -1:  
                    printf("you have input a wrong string\n");  
                    //getch();  
                    return 0;  
                break;  
                  
                default:   
                printf("( %-10s%5d )\n",token,syn);  
                break;  
            }  
        }while(syn!=0);  
    //getch();  
 }  
  
void scaner(void)  
{    
    sum=0;  
      
    for(m=0;m<8;m++)  
        token[m++]= NULL;  
      
        ch=prog[p++];  
        m=0;  
          
    while((ch==' ')||(ch=='\n'))  
        ch=prog[p++];  
      
    if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A')))  
     {   
        while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9')))  
        {  
            token[m++]=ch;  
            ch=prog[p++];  
        }  
          
        p--;  
        syn=10;  
  
        for(n=0;n<6;n++)  
        if(strcmp(token,rwtab[n])==0)  
        {   
            syn=n+1;  
            break;  
        }  
     }  
     else if((ch>='0')&&(ch<='9'))  
     {   
        while((ch>='0')&&(ch<='9'))  
        {  
            sum=sum*10+ch-'0';  
            ch=prog[p++];  
        }  
        p--;  
        syn=11;  
    }  
    else   
    {  
        switch(ch)  
        {  
        case '<':  
            token[m++]=ch;  
            ch=prog[p++];  
            if(ch=='=')  
            {   
                syn=22;  
                token[m++]=ch;  
            }  
            else  
            {    
                syn=20;  
                p--;  
            }  
        break;  
  
        case '>':  
            token[m++]=ch;  
            ch=prog[p++];  
            if(ch=='=')  
            {  
                syn=24;  
                token[m++]=ch;  
            }  
            else  
            {   
                syn=23;  
                p--;  
            }  
        break;  
  
        case '+':  
            token[m++]=ch;  
            ch=prog[p++];  
            if(ch=='+')  
            {  
                syn=17;  
                token[m++]=ch;  
            }  
            else  
            {  
                syn=13;  
                p--;  
            }  
        break;  
  
        case '-':  
            token[m++]=ch;  
            ch=prog[p++];  
            if(ch=='-')  
            {  
                syn=29;  
                token[m++]=ch;  
            }  
            else  
            {   
                syn=14;  
                p--;  
            }  
        break;  
  
        case '!':  
            ch=prog[p++];  
            if(ch=='=')  
            {   
                syn=21;  
                token[m++]=ch;  
            }  
            else  
            {   
                syn=31;  
                p--;  
            }  
        break;  
  
        case '=':  
            token[m++]=ch;  
            ch=prog[p++];  
            if(ch=='=')  
            {  
                syn=25;  
                token[m++]=ch;  
            }  
            else  
            {  
                syn=18;  
                p--;  
            }  
        break;  
  
        case '*':  
            syn=15;  
            token[m++]=ch;  
        break;  
  
        case '/':  
            syn=16;  
            token[m++]=ch;  
        break;  
  
        case '(':   
            syn=27;  
            token[m++]=ch;  
        break;  
  
        case ')':  
            syn=28;  
            token[m++]=ch;  
        break;  
  
        case '{':   
            syn=5;  
            token[m++]=ch;  
        break;  
  
        case '}':   
            syn=6;  
            token[m++]=ch;  
        break;  
  
        case ';':  
            syn=26;  
            token[m++]=ch;  
        break;  
  
        case '\"':  
            syn=30;  
            token[m++]=ch;  
        break;  
  
        case '#':   
            syn=0;  
            token[m++]=ch;  
        break;  
  
        case ':':  
            syn=17;  
            token[m++]=ch;  
        break;  
  
        default:  
            syn=-1;  
        break;  
        }  
    }  
        token[m++]='\0';  
}  

1.3小结:

词法分析,就是将程序源代码序列,循环读取一个字串,然后根据词法要求,确定其属性,然后组成词法单元。对于现实中的编程语言,其词法比较复杂,一般用正则表达式表示。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值