编译原理词法分析器

最新推荐文章于 2024-07-02 22:22:32 发布

Smile_7x

最新推荐文章于 2024-07-02 22:22:32 发布

阅读量9.2k

点赞数 2

分类专栏：数据结构与算法分析程序人生

本文链接：https://blog.csdn.net/Smile_7x/article/details/8912279

版权

数据结构与算法分析同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

程序人生

3 篇文章 0 订阅

订阅专栏

一、实验目的

了解词法分析程序的两种设计方法：1.根据状态转换图直接编程的方式；2.利用DFA编写通用的词法分析程序。

二、实验内容及要求

1．根据状态转换图直接编程

编写一个词法分析程序，它从左到右逐个字符的对源程序进行扫描，产生一个个的单词的二元式，形成二元式（记号）流文件输出。在此，词法分析程序作为单独的一遍，如下图所示。

具体任务有：

（1）组织源程序的输入

（2）拼出单词并查找其类别编号，形成二元式输出，得到单词流文件

（3）删除注释、空格和无用符号

（4）发现并定位词法错误，需要输出错误的位置在源程序中的第几行。将错误信息输出到屏幕上。

（5）对于普通标识符和常量，分别建立标识符表和常量表（使用线性表存储），当遇到一个标识符或常量时，查找标识符表或常量表，若存在，则返回位置，否则返回0并且填写符号表或常量表。

标识符表结构：变量名，类型（整型、实型、字符型），分配的数据区地址

注：词法分析阶段只填写变量名，其它部分在语法分析、语义分析、代码生成等阶段逐步填入。

常量表结构：常量名，常量值

2．编写DFA模拟程序

算法如下：

DFA（S=S0,MOVE[][],F[],ALPHABET[]）

/*S为状态，初值为DFA的初态，MOVE[][]为状态转换矩阵，F[] 为终态集，ALPHABET[]为字母表，其中的字母顺序与MOVE[][] 中列标题的字母顺序一致。*/

{

Char Wordbuffer[10]=“”//单词缓冲区置空

Nextchar=getchar（）；//读

i=0；

while（nextchar！=NULL）//NULL代表此类单词

{ if （nextchar！∈ALPHABET[]） {ERROR（“非法字符”），return（“非法字符”）；}

S=MOVE[S][nextchar] //下一状态

if（S=NULL）return（“不接受”）；//下一状态为空，不能识别，单词错误

wordbuffer[i]=nextchar ； //保存单词符号

i++；

nextchar=getchar（）；

}

Wordbuffer[i]=‘\0’;

If（S∈F）return（wordbuffer）； //接受

Else return（“不接受”）；

}

该算法要求：实现DFA算法，给定一个DFA（初态、状态转换矩阵、终态集、字母表），调用DFA（），识别给定源程序中的单词，查看结果是否正确。

1．能对任何S语言源程序进行分析

在运行词法分析程序时，应该用问答形式输入要被分析的S源语言程序的文件名，然后对该程序完成词法分析任务。

2．能检查并处理某些词法分析错误

词法分析程序能给出的错误信息包括：总的出错个数，每个错误所在的行号，错误的编号及错误信息。

本实验要求处理以下两种错误（编号分别为1，2）：

1：非法字符：单词表中不存在的字符处理为非法字符，处理方式是删除该字符，给出错误信息，“某某字符非法”。

2：源程序文件结束而注释未结束。注释格式为：/* …… */

三、源代码

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#define	 LENGTH 46
#define  N 100

/***    定义结构体    ***/
typedef struct token
{
    char name[30];
    int code;
    int addr;
} token;

typedef struct KeyWord
{
    char name[30];
    int code;
} KeyWord;

typedef struct symble
{
    char name[30];  //字符名字
    int number;    //字符编码
    int type;
} symble;

/****  文件及变量  ****/
char ch;
int error_count; //错误出现的个数
int var_count;
int num_count;
int label_count;
int code_count;
int addr_count;  //内码编址
int LineOfPro;   //错误出现的行号
char filename[30];
FILE *SourceFin;    //源文件
FILE *TokenFout;    //输出文件
FILE *SymbleFout;   //符号表
FILE *NumFout;   //常量表

KeyWord key[14]= {{"void",1},{"main",2},{"int",3},{"float",4},{"const",5},{"for",6},
    {"if",7},{"else",8},{"then",9},{"while",10},{"switch",11},{"break",12},{"begin",13},{"end",14}
};

token CurrentToken;
token zancun;
symble CurrentSimble;
symble SymbleList[N];
symble NumList[N];

//***********************************
void Scanner();       //主程序
void IsAlpha();       //关键字
void IsNumber();      //数字
void IsAnotation();   //注释
void IsOther();       //其它
void OutPut();        //输出
void Error(int a);    //错误类型
int Flag_WordHave();  //查添符号表
int Flag_NumHave();   //查添常量表
//************************************
int main()
{
    int i = 0 ;
    code_count = 0;
    var_count = 1;
    label_count = 1;
    addr_count = 0;
    num_count = 0;
    LineOfPro = 0; //行号
    Scanner();
    printf("输出标识符表：\n");
    for(i=0; i<var_count-1; i++)
        printf("<%s,%d>",SymbleList[i].name,i+1);
    printf("\n");
    printf("输出数字表：\n");
    for(i=0; i<num_count; i++)
        printf("<%s,%d>",NumList[i-1].name,i+1);
    return 0;
}
//*************主程序***************
void Scanner()
{
    int i =0;
    if((SourceFin=fopen("shugang.txt","r"))==NULL)
    {
        printf("无法打开文件%s!\n",filename);
        exit(1);
    }

    if((TokenFout=fopen("输出文件.txt","w"))==NULL)
    {
        printf("无法打开文件输出文件.txt！\n");
        exit(1);
    }
    if((SymbleFout=fopen("符号文件.txt","w"))==NULL)
    {
        printf("无法打开符号文件.txt！\n");
        exit(1);
    }
    if((NumFout=fopen("常量文件.txt","w"))==NULL)
    {
        printf("无法打开文件常量.txt！\n");
        exit(1);
    }
    ch=fgetc(SourceFin);
    while(ch!=EOF)
    {
        for(i=0; i<30; i++)
            CurrentToken.name[i]='\0';//将单词缓冲区初始化
        if((ch>47)&&(ch<58))
            IsNumber();
        if(((ch>='a')&&(ch<='z'))||((ch>='A')&&(ch<='Z'))||(ch=='_'))
        {
            IsAlpha();
        }
        if(ch=='/')
            IsAnotation();
        else
            IsOther();
    }
    fclose(TokenFout);
    fclose(SymbleFout);
    fclose(NumFout);
    printf("词法分析完毕。\n");
}

//************数字处理****************
void IsNumber()
{
    int k=0;
    while(((ch>='0')&&(ch<='9')))
    {
        CurrentToken.name[k++]=ch;//将数字放入单词缓冲区
        ch=fgetc(SourceFin);

    }
    CurrentToken.code=18;//数字的机内码是18
    OutPut();
}
//************是否为关键字****************
void IsAlpha()
{
    int i , h;
    h=0;
    i=0;
    while(((ch>='a')&&(ch<='z'))||((ch>='A')&&(ch<='Z'))||ch=='_')//将完整的单词放入单词缓冲区
    {
        CurrentToken.name[i++]=ch;
        ch=fgetc(SourceFin);
    }
    zancun=CurrentToken;
    for(i=0; i<14; i++) //将单词缓冲区中的词和关键字数组中的词比较，看是不是关键字
    {
        for(int j=0; j<30; j++)
        {
            if(CurrentToken.name[j]==key[i].name[j])
                h=0;
            else
            {
                h=1;
                break;
            }

        }
        if(h==0)
            break;
    }
    if(h==0)
    {
        CurrentToken.code=key[i].code;//将第i个关键字的机内码给单词缓冲区中现有单词的机内码
        CurrentToken.addr=-1;//关键字地址为-1
        OutPut();
    }
    else
    {
        CurrentToken.code=17;
        CurrentToken.addr=addr_count++;	//如果不是关键字就是普通标识符，地址加１
        OutPut();
    }
}
//**************处理注释*****************
void IsAnotation()
{
    char ch1;
    ch1=ch;
    ch=fgetc(SourceFin);
    if(ch=='*')
    {
        for(;;)
        {
            ch=fgetc(SourceFin);
            if(ch==EOF)
            {
                Error(2);    //到最后没有*说明注释不完全，有错误
                break;
            }
            if(ch=='*')
            {
                ch1=ch;
                ch=fgetc(SourceFin);
                if(ch=='/')//如果最后有*/说明注释完整
                {
                    ch=fgetc(SourceFin);
                    break;
                }
            }
        }
    }
    else
    {
        error_count++;
        Error(2);
        CurrentToken.name[0]='/';//如果注释不完整，将第一个字母看成/
        CurrentToken.code=22;
        CurrentToken.addr=-1;//符号的地址是-1
        OutPut();
    }
}

//***************其它 ************
void IsOther()
{
    char ch1;
    int i;
    for(i=0; i<30; i++)
    {
        CurrentToken.name[i]='\0';    //将缓冲区初始化
    }
    switch(ch)
    {
    case'+':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='+';
            CurrentToken.name[1]='=';
            CurrentToken.code=38;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='+';
            CurrentToken.code=19;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'-':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='-';
            CurrentToken.name[1]='=';
            CurrentToken.code=39;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='-';
            CurrentToken.code=20;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'*':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='*';
            CurrentToken.name[1]='=';
            CurrentToken.code=40;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='*';
            CurrentToken.code=21;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'%':
    {
        if(ch1 == '=')
        {
            CurrentToken.name[0]='%';
            CurrentToken.name[1]='=';
            CurrentToken.code=41;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='%';
            CurrentToken.code=23;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'(':
    {
        CurrentToken.name[0]='(';
        CurrentToken.code=24;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case')':
    {
        CurrentToken.name[0]=')';
        CurrentToken.code=25;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case'[':
    {
        CurrentToken.name[0]='[';
        CurrentToken.code=26;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case']':
    {
        CurrentToken.name[0]=']';
        CurrentToken.code=27;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case'<':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='<';
            CurrentToken.name[1]='=';
            CurrentToken.code=31;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='<';
            CurrentToken.code=29;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'>':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='>';
            CurrentToken.name[1]='=';
            CurrentToken.code=32;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='>';
            CurrentToken.code=30;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'=':
    {
        CurrentToken.name[0]='=';
        CurrentToken.code=33;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case'!':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='=')
        {
            CurrentToken.name[0]='!';
            CurrentToken.name[1]='=';
            CurrentToken.code=34;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
        else
        {
            CurrentToken.name[0]='n';
            CurrentToken.name[1]='o';
            CurrentToken.name[2]='t';
            CurrentToken.code=44;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case';':
    {
        CurrentToken.name[0]=';';
        CurrentToken.code=35;
        CurrentToken.addr=-1;
        OutPut();
        ch=fgetc(SourceFin);
        break;
    }
    case'|':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='|')
        {
            CurrentToken.name[0]='O';
            CurrentToken.name[1]='R';
            CurrentToken.code=42;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case'&':
    {
        ch1=fgetc(SourceFin);
        if(ch1=='&')
        {
            CurrentToken.name[0]='A';
            CurrentToken.name[1]='N';
            CurrentToken.name[2]='D';
            CurrentToken.code=43;
            CurrentToken.addr=-1;
            OutPut();
            ch=fgetc(SourceFin);
            break;
        }
    }
    case 10:                //    /n换行
    {
        LineOfPro++;
        ch=fgetc(SourceFin);
        break;
    }
    case 13:                 //   回车换行
    {
        LineOfPro++;
        ch=fgetc(SourceFin);
        break;
    }
    case' ':                 //     空格
        CurrentToken.code=60;
        ch=fgetc(SourceFin);
        break;

    default:
        Error(1);
        ch=fgetc(SourceFin);
        break;
    }
}
//************错误类型************
void Error(int a)
{
    error_count++;
    switch(a)
    {
    case 1:
    {
        printf("error %2d 非法字符 %3d行.\n",error_count,LineOfPro+1);
        break;
    }

    case 2:
    {
        printf("error %2d 没有匹配的注释符 %3d行.\n",error_count,LineOfPro+1);
        break;
    }

    }
    return;
}
void OutPut()
{
    //输出形式
    if(CurrentToken.code==17)         //标志符输出
    {
        CurrentSimble.number=CurrentToken.addr;
        CurrentSimble.type=CurrentToken.code;
        strcpy(CurrentSimble.name,CurrentToken.name);
        Flag_WordHave();
        fprintf(TokenFout,"<id,%d>",addr_count);
        printf("<id,%d>",addr_count);
    }
    else if(CurrentToken.code==18)        //   数字输出
    {
        CurrentSimble.number=CurrentToken.addr;
        CurrentSimble.type=CurrentToken.code;
        strcpy(CurrentSimble.name,CurrentToken.name);
        Flag_NumHave();
        fprintf(TokenFout,"<num , %s>",CurrentToken.name);
        printf("<num , %d>",num_count);

    }
    else if((CurrentToken.code>=1)&&(CurrentToken.code<=14)) //关键字的输出
    {
        fprintf(TokenFout,"<%s,_>",zancun.name);
        printf("<%s ,_>",zancun.name);
    }
    else//符号的输出
    {
        fprintf(TokenFout,"<%s,_>",CurrentToken.name);
        printf("<%s ,_>",CurrentToken.name);
    }
}
//查添符号
int Flag_WordHave()
{
    int flag,i=0;
    //用缓冲符号表中的符号和符号数组中的比较
    for(i=0; i<(var_count-1); i++)
    {
        flag=strcmp(CurrentSimble.name,SymbleList[i].name);
        if(flag==0)
        {
            CurrentToken.addr=var_count;//如果存在，将符号数组的地址返回
            return 0;
        }
    }
    SymbleList[var_count-1].number=CurrentToken.addr;
    SymbleList[var_count-1].type=CurrentToken.code;
    strcpy(SymbleList[var_count-1].name,CurrentToken.name);//不存在写入
    fprintf(SymbleFout,"<%s ,%3d >",SymbleList[var_count-1].name,var_count);//符号的输出模式
//	printf("<%s ,%3d>",SymbleList[var_count-1].name,var_count);
    var_count=var_count+1;
    return 1;
}

//常量
int Flag_NumHave()
{
    int flag,i=0;
    //用缓冲常量表中的常量和常量数组中的比较
    for(i=0; i<(num_count-1); i++)
    {
        flag=strcmp(CurrentSimble.name,NumList[i].name);
        if(flag==0)
        {
            CurrentToken.addr=num_count;//如果存在，将符号数组的地址返回
            return 0;
        }
    }
    NumList[num_count-1].number=CurrentToken.addr;
    NumList[num_count-1].type=CurrentToken.code;
    strcpy(NumList[num_count-1].name,CurrentToken.name);//不存在写入
    fprintf(NumFout,"<%s ,%3d >",NumList[num_count-1].name,num_count);//符号的输出模式
    num_count=num_count+1;
    return 1;
}