编译链接过程（二）

最新推荐文章于 2024-08-04 12:02:57 发布

hjx5200

最新推荐文章于 2024-08-04 12:02:57 发布

阅读量465

点赞数

文章标签：编译语法树巴克斯范式语法分析语义分析

本文链接：https://blog.csdn.net/hjx5200/article/details/40478273

版权

前一篇博文提到编译的几个步骤，这一篇来了解下具体每一步都干了些什么，好叫心里有数。详细的过程，我想只有通过分析一个具体的编译器代码才好。下面介绍的几个步骤完成了源码文件经过编译链接后成为可执行文件：

1 预编译

以C语言为例，C语言的.c文件中包括include，define等等，这些依靠C语言的预处理器（cpp）来进行处理的。
将代码包含的#define删除，并在代码中用到宏定义的地方扩展开来；
条件编译，如#if，#ifdef，#elif，#endif等语法进行处理；
删除程序的注释；
将头文件#include加进来，插入到该指令所在位置。

2 编译

预编译后的文件，不再包含注释，头文件也插入进来，条件编译也得到相应的处理。那么，剩下的就是实实在在的源码，需要经过词法分析，语法分析，语义分析及优化，然后产生汇编代码。下面结合具体的代码实例讲解这些过程：
array[index] = (index + 4) * (2 + 6)

2.1 词法分析

首先，扫描器（Scanner）会扫描预处理后的源码文件，它的作用就是将源码中的一个个字符，划分为符合词法规则的不同类别，称为记号（Tokens）。这些Tokens是后面步骤处理的最小单位，每一类的记号具有特别的意义。一般Tokens的类别有：关键字，标识符，字面量（数字和字符串）和特殊符号（如加号，乘号等）。结合后面介绍的语法规则，每一类都有不同处理方法。扫描的结果是将这28个非空字符，划分为16个记号，并且为每个记号归类：

array ---> 标识符
[ ---> 左方括号
index ---> 标识符
] ---> 右方括号
= ---> 赋值
( ---> 左圆括号
index ---> 标识符
+ ---> 加号
4 ---> 数字
) ---> 右圆括号
* ---> 乘号
( ---> 左圆括号
2 ---> 数字
+ ---> 加号
6 ---> 数字
） ---> 右圆括号

这些记号必须符合一定规则，例如一般程序语言都有算术运算，那么符号+，-，*，/等就是合法的记号，同时可能还有运算符重载，既一个符号同时承载了两种及以上的意义。C语言规定标识符必须是数字，字母或者下划线组成，且首字母不能为数字。

2.2 语法分析

语法分析器在上步的基础上，通过Tokens的类型，判断是否符合语法规则。语法分析多采用上下文无关语法，最终生成语法树。上下文无关语法规则描述了程序语言的语法。一般包括一个终止符的有限集，一个非终止符的有限集，一个产生规则的有限集和一个非终止符的开始集。通常程序语言的语法规则通过巴克斯-诺尔范式（BNF）表示。凡是能够通过巴克斯-诺尔范式推到出的都是符合语法规则的表达式。通过语法分析后，程序的形式变为语法树，通过树的数据结构更能表达出程序的本质，也便于进一步处理，而不再是便于人类阅读的形式了。

2.3 语义分析

语法分析后生成抽象语法树，能够发现程序的语法层面的错误，但是每个表达式也即语法树的节点的意义是什么，该语法树并没有交代。这时，通过语义分析，能够发现表达式及子表达式是否类型匹配，进一步把程序向精确化转化。这里提到类型匹配，每一种语言都必须给出程序的基本类型和组合类型，程序的变量，函数或者表达式也必须有类型。每一门语言的类型系统就是定义变量和表达式的类型的子系统。对类型的不同划分是各门语言的特点所在。