实验一 词法分析程序设计与实现

一、实验目的

加深对词法分析器的工作过程的理解;加强对词法分析方法的掌握;能够采用一种编程语言实现简单的词法分析程序;能够使用自己编写的分析程序对简单的程序段进行词法分析。

二、实验内容

自定义一种程序设计语言,或者选择已有的一种高级语言,编制它的词法分析程序。词法分析程序的实现可以采用任何一种编程语言和编程工具。

程序能够从左到右一个字符一个字符地读入源程序,并对构成的源程序的字符流进行扫描和分解,从而识别出一个个单词(也称单词符号或符号)。并给出单词的值和属性。识别出各个具有独立意义的单词,即关键字、标识符、常数、运算符、界符(状态转换图见书P93)。并依次输出各个单词的内部编码及单词符号自身值。(遇到错误时可显示“Error”,然后跳过错误部分继续显示)

三、实验要求:

  1. 对单词的构词规则有明确的定义;
  2. 编写的分析程序能够正确识别源程序中的单词符号;
  3. 识别出的单词以<种别码,值>的形式保存在符号表中,正确设计和维护符号表;
  4. 对于源程序中的词法错误,能够做出简单的错误处理,给出简单的错误提示,保证顺利完成整个源程序的词法分析;

四、实验步骤

  1. 定义目标语言的可用符号表和构词规则;
  2. 依次读入源程序符号,对源程序进行单词切分和识别,直到源程序结束;
  3. 对正确的单词,按照它的种别以<种别码,值>的形式保存在符号表中;
  4. 对不正确的单词,做出错误处理。

五、实验报告要求

详细说明你的程序的设计思路和实现过程。用有限自动机或者文法的形式对词法定义做出详细说明,说明词法分析程序的工作过程,说明错误处理的实现,写出实验心得,给出程序实现的代码。

六、参考资料

1、以下面一段程序为例

main()                                                                         

{

int  a,b;

a = 10;

   b := a + 20;

}

2、需要识别的词

  1. 关键字:if、int、for、while、do、return、break、continue;单词种别码为1。
  2. 标识符;单词种别码为2。
  3. 常数为无符号整形数;单词种别码为3。
  4. 运算符包括:+、-、*、/、**、=、:=、<=、<>、<、>=、>单词种别码为4。
  5. 分隔符包括:,、; 单词种别码为5。

3、程序输出形式

要求输出下面的形式:

(2,”main”)

(5,”(“)

(5,”)“)

(5,”{“)

(1,”int”)

(2,”a”)

(5,”,”)

(2,”b”)

(5,”;”)

(2,”a”)

(4,”=”)

(3,”10”)

(5,”;”)

(2,”b”)

(4,”:=”)

(2,”a”)

(4,”+”)

(3,”20”)

(5,”;”)

(5,”}“)

#include<stdio.h>  
#include<string.h>  
#include<iostream>  
using namespace std;
char prog[80], token[20];//prog程序,token识别
char ch;//当前字符
int syn, p, m = 0, n, row, sum = 0;//p指向程序代码中的位置,syn种别码
const char* rwtab[8] = { "if","int","for","while","do","return","break","continue" };//关键字
void scaner()
{
    //识别
    for (n = 0; n < 8; n++) token[n] = NULL;
    ch = prog[p++];
    //去除空格
    while (ch == ' ')
    {
        ch = prog[p];
        p++;
    }
    /*进行标示符或者关键字的识别*/
    if ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z'))  //可能是标示符或者关键字   
    {
        m = 0;//m表示识别序列中的位置
        while ((ch >= '0' && ch <= '9') || (ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z'))
        {
            token[m++] = ch;
            ch = prog[p++];
        }
        token[m++] = '\0';//结束
        p--;//最后一个会自动加一,所以减掉
        syn = 2;
        for (n = 0; n < 8; n++) //将识别出来的字符和已定义的关键字作比较  
            if (strcmp(token, rwtab[n]) == 0) {
                syn = 1;//关键字
                break;
            }
            else {
                syn = 2;
                break;
            }
    }
    /*进行数字的识别*/
    else if ((ch >= '0' && ch <= '9'))  //数字   
    {
        {
            sum = 0;
            /*连续读取数字字符,并将其转换为整数*/
            while ((ch >= '0' && ch <= '9'))
            {
                sum = sum * 10 + ch - '0';
                ch = prog[p++];
                syn = 3;
            }
        }
        p--;//回退
        syn = 3;
        if (sum > 4294967295)//溢出
            syn = -1;
    }
    /*进行其他字符的识别*/
    else switch (ch)//其他字符   
    {
    case'<':m = 0; token[m++] = ch;
        ch = prog[p++];
        if (ch == '>')
        {
            syn = 4;
            token[m++] = ch;
        }
        else if (ch == '=')
        {
            syn = 4;
            token[m++] = ch;
        }
        else
        {
            syn = 4;
            p--;
        }
        break;
    case'>':m = 0; token[m++] = ch;
        ch = prog[p++];
        if (ch == '=')
        {
            syn = 4;
            token[m++] = ch;
        }
        else
        {
            syn = 4;
            p--;
        }
        break;
    case':':m = 0; token[m++] = ch;
        ch = prog[p++];
        if (ch == '=')
        {
            syn = 4;
            token[m++] = ch;
        }
        else
        {
            syn = 4;
            p--;
        }
        break;
    case'*':m = 0; token[m++] = ch;
        ch = prog[p++];
        if (ch == '*')
        {
            syn = 4;
            token[m++] = ch;
        }
        else
        {
            syn = 4;
            p--;
        }
    case'/':syn = 4; token[0] = ch; break;
    case'+':syn = 4; token[0] = ch; break;
    case'-':syn = 4; token[0] = ch; break;
    case'=':syn = 4; token[0] = ch; break;
    case';':syn = 5; token[0] = ch; break;
    case',':syn = 5; token[0] = ch; break;
    case'(':syn = 5; token[0] = ch; break;
    case')':syn = 5; token[0] = ch; break;
    case'{':syn = 5; token[0] = ch; break;
    case'}':syn = 5; token[0] = ch; break;
    case'#':syn = 0; token[0] = ch; break;
    case'\n':syn = -2; break;
    default: syn = -1; break;
    }
}
int main()
{
    /*输入*/
    p = 0;
    row = 1;
    cout << "Please input string:" << endl;
    do
    {
        cin.get(ch);
        prog[p++] = ch;
    } while (ch != '#');
    /*输出*/
    p = 0;
    do
    {
        scaner();
        switch (syn)
        {
        case 0: break;
        case 3: cout << "(" << syn << "," << sum << ")" << endl; break;
        case -1: cout << "Error in row " << row << "!" << endl; break;
        case -2: row++; break;
        default: cout << "(" << syn << "," << token << ")" << endl; break;
        }
    } while (syn != 0);
}

制作不易希望三联

<think>好,我现在需要帮用户完成这个C语言词法分析器的代码。用户给出的代码框架中有三个部分需要补充:标识符或键字的识别、数字的识别,以及其他字符的识别。同时主函数中的输入和输出部分也需要完善。我得仔细分析每个部分应该怎么处理。 首先看scaner函数的标识符部分。用户提到,这里需要识别标识符或者键字。思路应该是这样的:当遇到的字符是字母或下划线时,继续读取后续的字母、数字或下划线,组成个标识符。然后检查这个标识符是否是保留字,比如if、int等。如果是,就设置相应的syn值。比如syn可能是1到8对应不同的键字,而如果是用户定义的标识符,syn可能是10。那具体怎么实现呢?比如,循环读取字符,直到不是字母或数字为止,然后将tokenrwtab中的键字比较。如果匹配到,设置syn为对应的值,否则是标识符。 然后是数字的识别部分。这里需要处理整数和小数的情况吗?根据题目中的例子,可能只需要整数。所以当遇到数字时,继续读取后续的数字,组合成个整数,然后sum保存这个数值,syn设置为20之类的。需要注意字符转数字的处理,比如ch - '0'。 接下来是其他字符的识别,比如运算符和界符。比如,当遇到+、-、*、/这些符号时,可能需要判断是否是单字符还是双字符的,比如++或者+=。例如,当遇到+时,需要查看下个字符是否是+或者=,如果是,则组成双字符运算符,syn设为对应的值,比如++是22,而+=可能对应其他值。如果不是,就单独处理为+。同样,分界符如;、,、括号等需要处理。比如,如果是单个字符,直接设置syn对应的值。这部分可能需要多个if-else判断,处理不同的情况。 主函数部分,用户需要输入源代码,并循环调用scaner函数直到结束。输入部分可能需要读取多行,直到遇到某个结束符,比如#。或者根据代码中的处理,比如用gets或者fgets读取输入到prog数组中。然后p初始化为0,循环调用scaner,直到处理完整个prog数组。输出部分需要根据syn的值输出相应的单词种类和内容。比如,syn为10是标识符,输出对应的token;syn为20是数字,输出sum的值;其他符号则输出对应的符号名称。 现在,我需要具体考虑各个部分的代码实现。比如,在标识符处理部分,首先判断ch是否是字母或下划线,如果是,进入循环,将后续的字母数字或下划线加入token数组。然后比较token是否在rwtab或者rwtab1中。例如,遍历rwtab数组,如果找到匹配,则syn设置为n+1(比如rwtab[0]是if,对应syn=1),否则syn设为10。如果是用户定义的标识符,可能rwtab1中的处理类似,但用户提供的代码中可能没有这部分,需要看题目要求。 数字部分,当ch是数字时,进入循环,收集所有连续的数字字符,转换为整数存入sum。syn设置为20。比如,sum = sum *10 + (ch - '0'),然后继续读下个字符。 其他字符部分,需要处理各种符号。例如: - +可能是+、++、+=的情况。先读入当前字符,然后预读下个字符,判断是否能组成双字符符号。比如,如果当前是+,下个也是+,则p++,syn设为22。否则如果是=,syn设为23,否则就是单独的+,syn设为21。 类似地处理其他符号,比如-、*、/、=、<、>等。此外,还需要处理括号、分号、逗号等单字符符号,比如(对应syn为26,)为27,{为28,}为29,,为30,;为31,[为32,]为33等。需要注意转义字符,比如双引号可能需要处理。 在编写这部分代码时,需要按照优先级处理双字符符号,比如先判断是否可能组成双字符符号,否则处理为单字符。 主函数中的输入可能需要用gets或者fgets读取字符串到prog数组,以#作为结束符?或者用户输入多行,然后以某种方式结束。比如,p初始化为0,然后循环处理每个字符直到遇到'\0'或者某个终止符。 输出部分,每次调用scaner后,根据syn的值输出对应的类型。例如: - syn 1-8是键字,输出对应的token; - syn 10是标识符,输出; - syn 20是数字,输出sum; - 其他syn对应不同的符号,比如+对应运算符等。 可能需要个switch语句或者多个if条件来输出对应的信息。 现在,结合用户提供的代码框架,填充各部分的具体实现。 在标识符部分: if (ch是字母或下划线) { 循环读取字母、数字或下划线,组成token; 检查token是否是键字(比较rwtab和rwtab1); 设置syn的值; } 例如: if ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z') || ch == '_') { token[m++] = ch; while ((prog[p] >= 'a' && prog[p] <= 'z') || (prog[p] >= 'A' && prog[p] <= 'Z') || prog[p] >= '0' && prog[p] <= '9' || prog[p] == '_') { ch = prog[p++]; token[m++] = ch; } token[m] = '\0'; // 确保字符串结束 syn = 10; // 默认标识符 for (n = 0; n < 8; n++) { if (strcmp(token, rwtab[n]) == 0) { syn = n + 1; // syn从1开始对应键字 break; } if (strcmp(token, rwtab1[n]) == 0) { // 可能用户定义的键字? syn = n + 33; // 比如假设用户定义的从33开始 break; } } m = 0; // 重置token索引 } 不过用户提供的rwtab1数组可能代表用户定义的标识符?比如main和其他变量名?可能题目中的要求不同,需要看具体情况。比如,在用户代码中,可能rwtab1中的单词作为特定的标识符处理,syn不同。但原题中的scaner函数可能没有处理rwtab1的部分,需要确认题目要求。根据用户给出的代码框架,可能只需要处理rwtab中的键字,而其他标识符作为syn=10。所以可能rwtab1的部分可能不需要处理,或者可能用户需要将main作为键字?这需要看具体的题目要求。但用户提供的原始代码可能这部分未完成,可能需要根据常见的词法分析器设计来处理。 例如,在常见情况下,键字如if、int等是保留字,而main可能作为函数名,属于标识符。但原代码中的rwtab1可能用于其他用途,可能用户需要将main视为键字?或者可能原题中的rwtab和rwtab1是不同的键字列表。可能题目中的要求是,当token是rwtab中的单词时syn为1-8,如果是rwtab1中的则为9-16?或者可能rwtab1是用户定义的变量?这需要更多信息。但根据用户给出的代码,可能这部分需要自己判断。可能原题中的rwtab1并未在scaner中使用,可能用户需要将main视为键字,比如syn为9?或者可能原题中的scaner函数需要同时检查rwtab和rwtab1? 不过根据用户提供的代码框架,scaner函数中的第个循环是: for (n=0;n<8;n++) token[n]=NULL; 这可能只是初始化token数组的前8个字符为NULL,但不够,因为token可能有更长的长度。可能需要用memset或类似方法清空整个数组。不过用户可能在循环前已经将token初始化为空。或者可能token的大小是20,足够处理标识符。 在标识符处理部分,用户可能需要将tokenrwtab中的键字比较。例如,如果是if,syn设为1,int是2,等等。而如果是main,可能属于rwtab1中的,所以需要比较这两个数组。例如: syn = 10; // 默认标识符 for (n=0;n<8;n++) { if (strcmp(token, rwtab[n]) == 0) { syn = n+1; break; } } if (syn == 10) { // 如果不在rwtab中,检查是否在rwtab1中 for (n=0;n<8;n++) { if (strcmp(token, rwtab1[n]) == 0) { syn = n + 9; // 假设rwtab1的syn从9开始 break; } } } 不过这可能因题目要求而异。原题可能需要将main视为键字吗?比如,可能原题中的示例输入输出中,main对应的syn值不同。假设题目要求将main视为键字,那么需要将rwtab1中的词作为另键字处理。但如果没有,可能不需要处理rwtab1,用户可能只需要处理rwtab中的键字,其余视为标识符。需要根据题目的测试用例来判断。例如,如果用户提供的代码中的测试输入中有main函数,那么可能需要处理main作为键字,否则可能不需要。这部分可能需要根据题目要求来调整。 假设在题目中,rwtab是键字,而rwtab1中的是系统预定义的函数名或变量名,或者可能不需要处理。可能用户在此处的代码中需要将main视为标识符。因此,在标识符处理部分,只需要比较rwtab中的键字。这可能更合理。因此,在代码中,当token是rwtab中的元素时,syn设为n+1(如1-8),否则设为10(标识符)。 接下来是数字识别部分: 如果当前字符是数字,那么收集所有连续的数字字符,转换为整数sum。例如: else if (ch >= '0' && ch <= '9') { sum = 0; while (ch >= '0' && ch <= '9') { sum = sum * 10 + (ch - '0'); ch = prog[p++]; } p--; // 因为循环中p已经自增,但最后个字符不是数字,需要回退 syn = 20; } 这里需要注意,当循环结束时,p可能指向下个非数字字符,因此需要p--,因为外层循环中的p会在scaner函数的最后再次自增吗?原scaner函数的结构中,每次调用scaner时,p会自增。例如,在初始时,ch = prog[p++],所以p已经指向下个字符。在数字处理中,当读取完所有数字后,p可能已经指向下个非数字字符,但此时需要将p减1,因为在处理完数字后,主循环中的p会在下次scaner调用时再次自增。例如,假设当前字符是数字,进入处理: ch = prog[p++]; // 初始的ch是数字,p自增 然后进入循环: while (prog[p]是数字) { ch = prog[p++]; sum = sum *10 + ... } 但这样可能会导致p超过当前字符的位置。或者可能应该用另种结构。例如: 当发现当前字符是数字时,开始处理: sum = 0; do { sum = sum *10 + (ch - '0'); ch = prog[p++]; } while (ch >= '0' && ch <= '9'); p--; // 因为最后个ch不是数字,需要回退p的位置 syn = 20; 这样,在进入数字处理时,p已经被初始的ch = prog[p++]自增过次。例如,假设初始p=0,读取ch=prog[0],p变为1。如果这个字符是数字,进入循环处理,读取prog[1]、prog[2]等,直到遇到非数字。此时,p的值已经指向非数字字符的下个位置。例如,假设数字是123,prog[0]='1',p=1;进入循环,ch=prog[1]='2',p=2;然后ch=prog[2]='3',p=3;然后循环条件不满足,退出。此时,p=3。然后p--,变为2。这样,在scaner函数结束时,下个字符是prog[2+1]=prog[3]?可能逻辑有问题。或者可能应该调整p的处理方式。 或者,在数字处理时,初始的ch已经被读取,是第个数字字符。然后,在循环中继续读取下个字符: sum = ch - '0'; while (prog[p
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值