《软件技术基础》之《词法分析》

最新推荐文章于 2025-04-21 16:05:00 发布

UestcXiye

最新推荐文章于 2025-04-21 16:05:00 发布

阅读量1.1k

点赞数 2

分类专栏：软件技术基础

本文链接：https://blog.csdn.net/ProgramNovice/article/details/107932584

版权

软件技术基础专栏收录该内容

23 篇文章

订阅专栏

词法分析的功能

功能

扫描源程序的字符串；
按照词法规则识别出单词符号作为输出；
对识别过程中发现的词法错误，则输出有关的错误信息。

词法分析器在编译器负责：

读取源程序；
识别单词；
过滤掉源程序的注释和空白；
将编译器生成的错误信息与源程序的位置关联（记录遇到的换行符的个数、给出错信息赋予一个行号）。

词法分析器和语法分析器的关系

词法分析器作为单独的一遍

词法分析器不断地读取输入串（源文件），直到识别出下一个符合单词模式的字符串（词素），词法分析器根据此“符合单词模式的字符串”生成下一个单词，将单词流的输出形成一个输出文件，作为语法分析器的输入。
在这里插入图片描述

词法分析器作为子程序

语法分析器调用词法分析器，指示词法分析器从它的输入不断读取字符，直到识别出下一个“符合单词模式的字符串”为止，词法分析器根据其生成下一个单词（token），返回给语法分析器。
在这里插入图片描述
示例：

上面的语句可以分成：

词法分析器的输出形式

单词的种类

标识符：用来命名程序中出现的变量、数组、函数、过程、标号等
基本字：也可称关键字或保留字，如if、while、for、do、goto等
常数：各种类型的常数，如233、3.1415、true等
运算符：如+、-、*、/等
界符：如；、：、（、）等

单词的输出形式：二元式

在这里插入图片描述

单词类型的划分

基本字、运算符、界符：一字一码；
标识符：单列一种；
标识符是以字母开头的的“字母/数字”串。用来表示各种名字，如变量名、函数名等。
常数：按类型分类，如整型、布尔型、字符型等。

词法分析器的结构

在这里插入图片描述

扫描缓冲区

输入缓冲区：源程序进入输入缓冲区；
预处理程序：取消注释、剔除无用的空白、回车、换行等；
扫描缓冲区：从输入缓冲区输入固定长度的字符串到另一个缓冲区（扫描缓冲区），词法分析可以直接在此缓冲区中进行符号识别

扫描缓冲区的结构：双缓冲区

设置左右两个缓冲区，当左缓冲区读完后，新读入的字符存入右缓冲区；反之，存放在左缓冲区；

起点指针 (lexeme Begin) ：用来指示正在扫描的单词的起点；
搜索指针 (forward) ：用于向前搜索，寻找单词的结束；

在这里插入图片描述

符号的识别

根据语言规定的词法规则，进行识别。

对不同类型的单词符号，有不同的识别要求

基本字：语言的固定格式
标识符：读到非字母数字
常数：根据常数的格式、大多数常数后都有运算符或界符
界符、运算符：需要超前搜索

词法分析技术——超前搜索

为了判定一个单词符号的识别，必须扫描到某一地方，而该单词符号并没有这么长，这种扫描方式叫做超前搜索。

起点指针指向当前单词的开始处。
搜索指针用于向前搜索，寻找单词的结束，搜索指针前移前需要确定是否达到末尾。
如果是，读取N个新字符到另一缓冲区，如果剩余字符不足N个，添加 eof 字符（或其他不会在源程序中的字符）。
单词确定后，搜索指针指向该词素结尾字符。
生成单词并记录或返回给语法分析器后，生成单词并记录或返回给语法分析器后，生成单词并记录或返回给语法分析器后起点指针指向下一个字符。