编译原理:简单词法分析器的设计与实现

一、实验目的:

设计、编制并调试一个简单的c语言词法分析程序,加深对词法分析原理的理解

二、实验要求:

  1. 对单词的构词规则有明确的定义;
  2. 编写的分析程序能够正确识别源程序中的单词符号;
  3. 识别出的单词以(单词符号,种别码)的形式保存在符号表中。

三、实验内容:

词法分析中的输入为一个C语言程序文件,该文件由如下关键字、运算符、界限符、常量、标识符中的符号构成,将该程序经词法分析后,形成的单词序列,并保存在一个文本文件(.txt)中。

  1. 单词的种类及组成
    (1)关键字
    if else while do for main return int float double char
    所有的关键字都是小写。
    (2)运算符
    = + - * / % < <= > >= != = =
    (3)界限符
    ; ( ) { }
    (4)常量
    无符号整形常量,通过以下正规式定义:
    dight dight*
    (5)标识符(ID),通过以下正规式定义:
    letter (letter | digit)*
    (6)空格有空白、制表符和换行符组成。空格一般用来分隔标识符、整数、运算符、界符和关键字,词法分析阶段被忽略。

  2. 各种单词符号对应的类别码

在这里插入图片描述
在这里插入图片描述
四、数据结构设计
主要是定义字符串和数组来保存关键字,种类码和运算符、界限符等信息。
在这里插入图片描述

函数设置:
1.分析器
在这里插入图片描述
2.
在这里插入图片描述

3.数字

在这里插入图片描述

4.单词识别
在这里插入图片描述

5.判断字符是什么类型
在这里插入图片描述

五、算法流程

在这里插入图片描述

六、算法结果

输入包含c语言程序的路径,结果保存至output.txt文件当中。
1.输入文件11.txt
在这里插入图片描述

2.output.txt保存分析结果
在这里插入图片描述
在这里插入图片描述

七、实验总结

通过这次实验我学习了简单词法分析器的基本原理,知道如何去设计一个简单的词法分析器。实验总体来说难度不大,代码量也是适中的,但是难点可能在于数据结构的设置以及编码的思路。关于数据结构我也只是使用了最简单的数组来保存需要用到的参数信息,事实上真正的词法分析器,计算机词法分析的源代码要远远复杂的多,同时其数据结构的定义也十分的考究,所以一个好的数据结构的定义对一个复杂、庞大的代码来说是十分重要的。
在实验中我也遇到一些问题,比如说用c语言对文件的处理不是特别熟悉,但是这也是十分简单的,找找资料也很容易实现。
同时也十分感谢老师的讲解,在老师的讲解之下我才能了解词法分析,掌握其基本原理,从而顺利的完成实验任务。

八、实验代码

#include<stdio.h>
#include<string.h>
#include<stdlib.h>
#include <iostream>
using namespace std;

//关键字
string key[11]={"int","float","double","char","main","if","else","while","do","for","return"};
//种别码
int keyNum[11]={27,28,29,30,1,2,3,4,5,6,7};
//运算符和界符
string symbol[17]={"+","-","*","/","%",">",">=","<","<=","==","!=","=",";","(",")","{","}"};
//运算符和界符种别码
int symbolNum[17]={10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26};

//从文件取出的字符
string letter[1000];
//将字符转换为单词
string  words[1000];
int length;  //保存程序中字符的长度
int num;

//判断是否为关键字,是返回种别码
int isKeyWord(string s){
    int i;
    for(i=0;i<11;i++){
        if(s==key[i])
            return keyNum[i];
    }
    return 0;
}

int isSymbol(string s){ //判断运算符和界符
    int i;
    for(i=0;i<17;i++){
        if(s==symbol[i])
            return symbolNum[i];
    }
    return 0;
}

//判断是否为数字
bool isNumber(string s){
    if(s>="0" && s<="9")
        return true;
    return false;
}

//判断是否为字母
bool isLetter(string s)
{
    if(s>="a" && s<="z")
        return true;
    return false;
}

//返回单个字符的类型
int typeword(string str){
    if(str>="a" && str<="z")   //   字母
        return 1;

    if(str>="0" && str<="9")   //数字
        return 2;

    if(str==">"||str=="="||str=="<"||str=="!"||str==","||str==";"||str=="("||str==")"||str=="{"||str=="}"
        ||str=="+"||str=="-"||str=="*"||str=="/")   //判断运算符和界符
        return 3;

}

string identifier(string s,int n){
    int j=n+1;
    int flag=1;

    while(flag){
        if(isNumber(letter[j]) || isLetter(letter[j])){
            s=(s+letter[j]).c_str();
            if(isKeyWord(s)){
                j++;
                num=j;
                return s;
            }
            j++;
        }
        else{
            flag=0;
        }
    }

    num=j;
    return s;
}

string symbolStr(string s,int n){
    int j=n+1;
    string str=letter[j];
    if(str==">"||str=="="||str=="<"||str=="!") {
        s=(s+letter[j]).c_str();
        j++;
    }
    num=j;
    return s;
}

string Number(string s,int n){
    int j=n+1;
    int flag=1;

    while(flag){
        if(isNumber(letter[j])){
            s=(s+letter[j]).c_str();
            j++;
        }
        else{
            flag=0;
        }
    }

    num=j;
    return s;
}

void print(string s,int n){
    cout<<"<"<<s<<","<<n<<">"<<endl;
}

void recognizeWord(){  //识别单词
    int k;

    for(num=0;num<length;){
        string str,ss;
        str=letter[num];
        k=typeword(str);
        switch(k){
            case 1:
                {
                    ss=identifier(str,num);
                    if(isKeyWord(ss))
                        print(ss,isKeyWord(ss));
                    else
                        print(ss,8);
                    break;
                }

            case 2:
                {
                    ss=Number(str,num);
                    print(ss,9);
                    break;
                }

            case 3:
                {
                    ss=symbolStr(str,num);
                    print(ss,isSymbol(ss));
                    break;
                }

        }

    }
}

int main(){
    char w;
    freopen("e:\\11.txt","r",stdin); //控制台输入
    freopen("e:\\result.txt","w",stdout); //控制台输出

    length=0;
    while(cin>>w){
        if(w!=' '){
            letter[length]=w;
            length++;
        }   //去掉程序中的空格
    }
    recognizeWord();
    fclose(stdin);//关闭文件
    fclose(stdout);//关闭文件
    return 0;
}

在C语言中设计一个词法分析器通常涉及到以下几个步骤: 1. 定义输入源:首先,你需要确定词法分析器将处理哪种类型的输入,如标准输入、文件还是字符串。 2. 分析字符类别:创建一个状态机或一个简单的数组,用于识别不同类型的符号,比如关键字、标识符、数字、运算符等。这通常通过ASCII码值来判断。 3. 定义扫描函数:每读取一个字符,都会调用这个函数检查它属于哪一类,并更新当前状态或添加到相应的符号列表中。 4. 初始和结束条件:词法分析器需要有开始和结束标志,例如遇到分号表示语句结束,或者文件结尾。 5. 状态转移和错误处理:设计状态转移规则,如果遇到无法识别的字符或者不符合语法的序列,记录错误并跳过该部分。 6. 结构化输出:构建一个数据结构(如链表或数组)来存储分析结果,如token(标记)及其对应的值。 下面是一个非常简化的伪代码示例: ```c typedef enum { SYMBOL_UNDEFINED, INTEGER, KEYWORD, // 其他符号类型... } TokenType; struct Token { char* value; TokenType type; }; Token lexical_analysis(char input) { if (is_digit(input)) { // 处理数字 } else if (is_keyword(input)) { // 处理关键字 } else if (is_special_char(input)) { // 处理特殊字符 } else { error("Invalid character"); } } // 主程序 int main() { while (read_char_from_input()) { Token token = lexical_analysis(current_char); process_token(token); } return 0; } ``` 请注意,这只是一个基本框架,实际词法分析器会更复杂,包括处理各种语言特性和异常情况。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值