编译原理词法分析代码

/***********************************************
* 词法分析器
* 编译环境:Visual Studio 2017
***********************************************/
#include <iostream>
#include <string>
#include <Windows.h>
using namespace std;

/* 单词编码 */
enum TokenCode
{
    /*未定义*/
    TK_UNDEF = 0,

    /* 关键字 */
    KW_VOID,    //void关键字
    KW_MAIN,    //main关键字
    KW_INT,        //int关键字
    KW_DOUBLE,    //double关键字
    KW_FOR,        //for关键字
    KW_WHILE,    //while关键字
    KW_SWITCH,    //switch关键字
    KW_CASE,    //case关键字
    KW_IF,        //if关键字
    KW_ELSE,    //else关键字
    KW_RETURN,    //return关键字

    /* 运算符 */
    TK_PLUS,    //+加号
    TK_MINUS,    //-减号
    TK_STAR,    //*乘号
    TK_DIVIDE,    ///除号
    TK_ASSIGN,    //=赋值运算符
    TK_EQ,        //==等于号
    TK_LT,        //<小于号
    TK_LEQ,        //<=小于等于号
    TK_GT,        //>大于号
    TK_GEQ,        //>=大于等于号

    /* 分隔符 */
    TK_OPENPA,    //(左圆括号
    TK_CLOSEPA,    //)右圆括号
    TK_OPENBR,    //[左中括号
    TK_CLOSEBR,    //]右中括号
    TK_BEGIN,    //{左大括号
    TK_END,        //}右大括号
    TK_COMMA,    //,逗号
    TK_SEMOCOLOM,    //;分号
    
    /* 常量 */
    TK_INT,        //整型常量
    TK_DOUBLE,    //浮点型常量

    /* 标识符 */
    TK_IDENT
};

/******************************************全局变量*****************************************************/
TokenCode code = TK_UNDEF;        //记录单词的种别码
const int MAX = 11;                //关键字数量
int row = 1;                    //记录字符所在的行数
string token = "";                //用于存储单词
char  keyWord[][10] = { "void","main","int","double","for","while","switch","case","if","else","return" };    //存储关键词

/**********************************************函数*****************************************************/

/********************************************
* 功能:打印词法分析的结果
* code:单词对应的种别码
* token:用于存储单词
* row:单词所在的行数
*********************************************/
void print(TokenCode code)
{
    
    switch (code)
    {
    /*未识别的符号*/
    case TK_UNDEF:
        SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_RED);    //未识别的符号为红色
        cout << '(' << code << ',' << token << ")" << "未识别的符号在第" << row << "行。" << endl;
        return;
        break;
    /*关键字*/
    case KW_VOID:        //void关键字
    case KW_MAIN:    //main关键字
    case KW_INT:        //int关键字
    case KW_DOUBLE:    //double关键字
    case KW_FOR:        //for关键字
    case KW_WHILE:    //while关键字
    case KW_SWITCH:    //switch关键字
    case KW_CASE:    //case关键字
    case KW_IF:        //if关键字
    case KW_ELSE:    //else关键字
    case KW_RETURN:    //return关键字
        SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_INTENSITY | FOREGROUND_BLUE);    //关键字为蓝色
        break;

    /* 运算符 */
    case TK_PLUS:    //+加号
    case TK_MINUS:    //-减号
    case TK_STAR:    //*乘号
    case TK_DIVIDE:    ///除号
    case TK_ASSIGN:    //=赋值运算符
    case TK_EQ:        //==等于号
    case TK_LT:        //<小于号
    case TK_LEQ:    //<=小于等于号
    case TK_GT:        //>大于号
    case TK_GEQ:        //>=大于等于号

    /* 分隔符 */
    case TK_OPENPA:    //(左圆括号
    case TK_CLOSEPA:    //)右圆括号
    case TK_OPENBR:    //[左中括号
    case TK_CLOSEBR:    //]右中括号
    case TK_BEGIN:    //{左大括号
    case TK_END:    //}右大括号
    case TK_COMMA:    //,逗号
    case TK_SEMOCOLOM:    //;分号
        SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_INTENSITY | FOREGROUND_GREEN);    //运算符和分隔符为绿色
        break;
        
    /* 常量 */
    case TK_INT:    //整型常量
    case TK_DOUBLE:    //浮点型常量
        SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_INTENSITY | FOREGROUND_RED | FOREGROUND_GREEN);    //常量为黄色
        if(token.find('.')==token.npos)
            cout << '(' << code << ',' << atoi(token.c_str()) << ")" << endl;                        //单词为整型
        else
            cout << '(' << code << ',' << atof(token.c_str()) << ")" << endl;                            //单词为浮点型
        return;
        break;
    /* 标识符 */
    case TK_IDENT:
        SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_INTENSITY);    //关键字为灰色
        break;
    default:
        break;
    }
    cout << '(' << code << ',' << token << ")" << endl;
}

/********************************************
* 功能:判断是否是关键字
* MAX:关键字数量
* token:用于存储单词
*********************************************/
bool isKey(string token)
{
    for (int i = 0; i < MAX; i++)
    {
        if (token.compare(keyWord[i]) == 0)
            return true;
    }
    return false;
}

/********************************************
* 功能:返回关键字的内码值
* MAX:关键字数量
* token:用于存储单词
*********************************************/
int  getKeyID(string token)
{
    for (int i = 0; i < MAX; i++)
    {    //关键字的内码值为keyWord数组中对应的下标加1
        if (token.compare(keyWord[i]) == 0)    
            return i+1;
    }
    return -1;
}

/********************************************
* 功能:判断一个字符是否是字母
* letter:被判断的字符
*********************************************/
bool isLetter(char letter)
{
    if ((letter >= 'a'&&letter <= 'z') || (letter >= 'A' &&letter <= 'Z'))
        return true;
    return false;

}

/********************************************
* 功能:判断一个字符是否是数字
* digit:被判断的字符
*********************************************/
bool isDigit(char digit)
{
    if (digit >= '0'&&digit <= '9')
        return true;
    return false;
}

/********************************************
* 功能:词法分析
* fp:文件指针
* code:单词对应的种别码
* token:用于存储单词
* row:单词所在的行数
*********************************************/
void lexicalAnalysis(FILE *fp)
{
    char ch;            //用于存储从文件中获取的单个字符
    while ((ch = fgetc(fp)) != EOF)    //未读取到文件尾,从文件中获取一个字符
    {
        token = ch;                                    //将获取的字符存入token中
        if (ch == ' ' || ch == '\t' || ch == '\n')    //忽略空格、Tab和回车
        {
            if (ch == '\n')                            //遇到换行符,记录行数的row加1
                row++;
            continue;                                //继续执行循环
        }
        else if (isLetter(ch))            //以字母开头,关键字或标识符
        {
            token = "";                    //token初始化
            while (isLetter(ch) || isDigit(ch))    //非字母或数字时退出,将单词存储在token中
            {
                token.push_back(ch);    //将读取的字符ch存入token中
                ch = fgetc(fp);            //获取下一个字符
            }
            //文件指针后退一个字节,即重新读取上述单词后的第一个字符
            fseek(fp, -1L, SEEK_CUR);
            if (isKey(token))    //关键字
                code = TokenCode(getKeyID(token));
            else    //标识符
                code = TK_IDENT;    //单词为标识符
        }
        else if (isDigit(ch))    //无符号常数以数字开头
        {
            int isdouble = 0;    //标记是否为浮点数
            token = "";            //token初始化
            while (isDigit(ch))    //当前获取到的字符为数字
            {
                token.push_back(ch);        //读取数字,将其存入token中
                ch = fgetc(fp);                //从文件中获取下一个字符
                //该单词中第一次出现小数点
                if (ch == '.'&& isdouble == 0)
                {
                    //小数点下一位是数字
                    if (isDigit(fgetc(fp)))
                    {
                        isdouble = 1;        //标记该常数中已经出现过小数点
                        fseek(fp, -1L, SEEK_CUR);        //将超前读取的小数点后一位重新读取    
                        token.push_back(ch);            //将小数点入token中
                        ch = fgetc(fp);                //读取小数点后的下一位数字
                    }
                }
            }
            if (isdouble == 1)
                code = TK_DOUBLE;    //单词为浮点型
            else
                code = TK_INT;                //单词为整型
            //文件指针后退一个字节,即重新读取常数后的第一个字符
            fseek(fp, -1L, SEEK_CUR);
        }
        else switch (ch)
        {    
        /*运算符*/
        case '+': code = TK_PLUS;        //+加号            
            break;
        case '-': code = TK_MINUS;        //-减号
            break;
        case '*': code = TK_STAR;        //*乘号        
            break;
        case '/': code = TK_DIVIDE;        //除号
            break;
        case '=':
        {
            ch = fgetc(fp);                //超前读取'='后面的字符
            if (ch == '=')                //==等于号
            {
                token.push_back(ch);    //将'='后面的'='存入token中
                code = TK_EQ;            //单词为"=="
            }        
            else {                        //=赋值运算符
                code = TK_ASSIGN;        //单词为"="
                fseek(fp, -1L, SEEK_CUR);    //将超前读取的字符重新读取
            }
        }
        break;
        case '<':        
        {
            ch = fgetc(fp);                //超前读取'<'后面的字符
            if (ch == '=')                //<=小于等于号
            {
                token.push_back(ch);    //将'<'后面的'='存入token中
                code = TK_LEQ;            //单词为"<="
            }        
            else {                        //<小于号
                code = TK_LT;            //单词为"<"
                fseek(fp, -1L, SEEK_CUR);    //将超前读取的字符重新读取
            }
        }
        break;
        case '>':
        {
            ch = fgetc(fp);                //超前读取'>'后面的字符
            if (ch == '=')                //>=大于等于号
            {
                token.push_back(ch);    //将'>'后面的'='存入token中
                code = TK_GEQ;            //单词为">="
            }    
            else {                        //>大于号
                code = TK_GT;            //单词为">"
                fseek(fp, -1L, SEEK_CUR);    //将超前读取的字符重新读取
            }
        }
        break;
        /*分界符*/
        case '(': code = TK_OPENPA;        //(左圆括号
            break;
        case ')': code = TK_CLOSEPA;    //)右圆括号
            break;
        case '[': code = TK_OPENBR;        //[左中括号
            break;
        case ']': code = TK_CLOSEBR;    //]右中括号
            break;
        case '{': code = TK_BEGIN;        //{左大括号
            break;
        case '}': code = TK_END;        //}右大括号
            break;
        case ',': code = TK_COMMA;        //,逗号
            break;
        case ';': code = TK_SEMOCOLOM;    //;分号
            break;
        //未识别符号
        default: code = TK_UNDEF;
        }
        print(code);                //打印词法分析结果
    }
}

int main()
{
    string filename;        //文件路径
    FILE* fp;                //文件指针
    cout << "请输入源文件名:" << endl;
    while (true) {
        cin >> filename;        //读取文件路径
        if ((fopen_s(&fp,filename.c_str(), "r"))==0)        //打开文件
            break;
        else
            cout << "路径输入错误!" << endl;    //读取失败
    }
    cout << "/=***************************词法分析结果***************************=/" << endl;
    lexicalAnalysis(fp);        //词法分析
    fclose(fp);                    //关闭文件
    SetConsoleTextAttribute(GetStdHandle(STD_OUTPUT_HANDLE), FOREGROUND_INTENSITY | FOREGROUND_RED | FOREGROUND_GREEN | FOREGROUND_BLUE);    //字体恢复原来的颜色
    return 0;
}
 

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⒈ 题目 编写前述PASCAL子集的词法分析程序。 1)主程序设计考虑,(参阅后面给出的程序框架) 主程序的说明部分为各种表格和变量安排空间。 数组k为关键字表,每个数组元素存放一个关键字。采用定长的方式,较短的关键字后面补空格。 P 数组存放分界符。为了简单起见,分界符、算术运算符和关系运算符都放在p表中(学生编程时,应建立算术运算符表和关系运算符表,并且各有类号),合并成一类。 id 和ci 数组分别存放标识符和常数。 instring 数组为输入源程序的单词缓存。 outtoken 记录为输出内部表示缓存。 还有一些为造表填表设置的变量。 主程序开始后,先以人工方式输入关键字,造 k 表;再输入分界符等造 p 表。 主程序的工作部分设计成便于调试的循环结构。每个循环处理一个单词;接收键盘上送来的一个单词;调用词法分析过程;输出每个单词的内部码。 2)词法分析过程考虑 该过程取名为 lexical,它根据输入单词的第一个字符(有时还需读第二个字符),判断单词类,产生类号:以字符k表示关键字;i表示标识符;c 表示常数;p 表示分界符;s 表示运算符(学生编程时类号分别为1,2,3,4,5)。 对于标识符和常数,需分别与标识符表和常数表中已登记的元素相比较,如表中已有该元素,则记录其在表中的位置,如未出现过,将标识符按顺序填入数组 id 中,将常数变为二进制形式存入数组中 ci 中,并记录其在表中的位置。 lexical 过程中嵌有两个小过程:一个名为 getchar,其功能为从 instring 中按顺序取出一个字符,并将其指针 pint 加 1 ;另一个名为 error,当出现错误时,调用这个过程,输出错误编号。 将词法分析程序设计成独(入口)立一遍扫描源程序的结构。其流程图见图5-1。 图5-1 词法分析程序流程图 ⒉ 要求 ⑴ 所有识别出的单词都用两个字节的等长表示,称为内部码。第一个字节为 t ,第二个字节为 i 。 t 为单词的种类。关键字的 t=1;分界符的 t=2;算术运算符的 t=3;关系运算符的 t=4;无符号数的 t=5;标识符的 t=6。i 为该单词在各自表中的指针或内部码值。表 5-1 为关键字表;表 5-2 为分界符表;表 5-3 为算术运算符的 i 值;表 5-4 为关系运算符的 i 值。 表5-1 关键字表 表5-2 分界符表 指针1 关键字 指针1 分界符 0 BEGIN 0 , 1 DO 1 ; 2 ELSE 2 . 3 END 3 := 4 IF 4 ( 5 THEN 5 ) 6 VAR 7 WHILE 表5-3 算术运算符 表5-4 关系运算符 i 值 算术运算符 i 值 关系运算符 00H < 10H + 01H 21H / 04H >= 05H 常数表和标识符表是在编译过程中建立起来的。其 i 值是根据它们在源程序中出现的顺序确定的。 ⑵ 常数分析程序、关键字和标识符分析程序、其他单词分析程序请参阅范例自行设计。 ⑶ 本实践题可通过扩充下面给出的程序框架完成。 PROGRAM plexical(input,output); LABEL l; CONST keylen=10; identlen=10; TYPE //定义的类型 tstring=ARRAY[1..identlen] OF char; outreco=RECORD//记录为输出内部表示缓存。 ty: char; point: integer; END; {outreco} VAR cip,ip,pint,i,j,l,m,errorx:integer; charl:CHAR; ci:ARRAY[1..10] OF integer; k,id:ARRAY[1..keylen] OF tstring; token:tstring; //标志符 outtoken:outreco; instring:ARRAY[1..10]OF char; p:ARRAY[1..16] OF ARRAY [1..2] OF char; PROCEDURE lexical; VAR l,m,num:integer; b: boolean; PROCEDURE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值