程序编译和预处理

最新推荐文章于 2023-10-19 11:38:35 发布

裙下的霸气

最新推荐文章于 2023-10-19 11:38:35 发布

阅读量407

点赞数

分类专栏： C语言文章标签：开发语言

本文链接：https://blog.csdn.net/m0_63601133/article/details/126438418

版权

C语言专栏收录该内容

14 篇文章 1 订阅

订阅专栏

程序的编译

首先看一个简单的程序，每位程序员入门的第一个程序，事实上简单的程序背后，编译器做了许多事才让字符串输出到了屏幕上。

编译器将我们写的.c和.h文件转换为可执行文件，做了四个步骤。
以Linux的GCC为例：
首先是预处理将hello.c等文件预编译成一个.i文件，然后是编译产生相应的汇编代码文件.s文件。
然后是汇编将汇编代码转变成机器可执行的指令，生成.o文件（目标文件）。
最后是这些目标文件（.o文件）链接起来得到最终的可执行文件（a.out）。
过程图如下：

预处理阶段

源代码文件hello.c和相关的头文件如stdio.h被预编译器cpp预编译成一个.i文件。
用命令-E(只进行预编译）。
预编译主要处理规则：
1.删除#define ，展开宏定义。
2.处理条件预编译指令，如#if，#ifdef，#elif，#else，#endif
3.处理#include预编译指令，将包含的头文件插入到指令的位置，递归进行，因为头文件可能包含了别的头文件。
4.删除注释// 和 /* */。
5.添加行号和文件名标识，以便调试时产生行号和编译错误或警告时显示行号。
6.保留#pragma编译器指令。

编译阶段

编译阶段就是把预编译生成的.i文件进行一系列的词法分析，语法分析，语义分析及优化后产生的相应的汇编代码文件（.s文件）（程序构建的核心步骤），现在版本的GCC预编译和编译被合并成一个步骤，用一个叫做cc1的程序来完成这两个步骤，指令为 -S。

词法分析

源代码程序被输入扫描器，扫描器将字符序列分割成一系列记号，记号一般分为：关键字，标识符，字面量（数字，字符串等）和特殊符号（加号，等号），识别记号的同时，还完成了别的工作，如，将标识符放到符号表，将数字,字符串常量放到文字表等，以备后面步骤使用。

语法分析

语法分析器将由扫描器产生的记号进行词法分析，从而产生语法树（采用上下文无关语法分析手段）。语法分析时，运算符的优先级和含义被确定，如果表达式不合法，编译器就在这个阶段报错。，例如a[index]=(4+index)(2+6);
=被当做根节点，等号左边被当做左子树，右边则是右子树，，左子树的根是[]，右子树的根是,等等，树如下：

语义分析

由语义分析器分析在编译期能确定的语义，为静态语义，对应的动态语义只有在运行期能确定。

静态语义包括声明的类型匹配，类型转换，如浮点型表达式赋给整形变量时，发生的隐式类型转换，类型不匹配时，编译器会在这时报错。动态语义则在运行期报错，如将0做为除数。经过这个阶段语法树的表达式都被标识了类型，如下:

中间语言生成

现在编译器有多层次优化，在源码级会有一个优化过程，源代码优化器将整个语法树转换成中间代码，它是语法树的顺序表示。中间代码有三地址码和P-代码等，将上述语法树翻译成三地址码：

t1=2+6

t2=index+4

t3=t2*t1

a[index]=t3

优化程序将2+6计算出来，省去不必要的变量，然后优化后代码如下：

t1=index+4

t2=t1*8

a[index]=t2

目标代码生成与优化

上述产生中间代码的过程被分为编译器的前端，编译器后端则是将中间代码转换成目标机器代码。

编译器后端依赖于代码生成器和目标代码优化器，代码生成器将中间代码转换成目标机器代码，这个过程取决于不同机器（不同机器字长，寄存器，整数数据类型等可能不同），然后目标代码生成器对目标代码优化，比如选择合适寻址方式，使用位运算代替乘法运算，删除多余指令等。

对于同一个源文件，变量地址和函数地址可以确定，但是不同源文件就需要通过链接阶段来完成了。

汇编阶段

汇编过程较直接，汇编器将汇编代码转变为机器可以执行的指令，每一个汇编语句几乎对应一条机器指令，没有语法，语义，不用指令优化，直接调用汇编as就可以完成了。（指令是 -c）将.s文件翻译为.o（目标文件）。

链接阶段

每个源文件被编译成目标文件（.o），目标文件和库一起链接形成最终的可执行文件。链接的过程主要包括了地址和空间分配，符号决议和重定位等步骤。

例如在编译目标文件B时用到了目标文件A的全局变量，此时将目标地址先置成0，待A和B链接后，再把目标地址改成相应的地址，这个地址修正过程叫重定位。

预处理

所有的预处理器命令都是以井号（#）开头。

重要的预处理指令如下：

#define 定义宏
#include 包含一个源代码文件
#undef 取消已定义的宏
#ifdef 如果宏已经定义，则返回真
#ifndef 如果宏没有定义，则返回真
#if 如果给定条件为真，则编译下面代码
#else #if 的替代方案
#elif 如果前面的 #if 给定条件不为真，当前条件为真，则编译下面代码
#endif 结束一个 #if……#else 条件编译块
#error 当遇到标准错误时，输出错误消息
#pragma 使用标准化方法，向编译器发布特殊的命令到编译器中

#define

定义常量：

#define PI 3.14

#define STR “hello world”

定义表达式

例如定义求平方的宏：

#define SQR(x) ((x)*(x))

#define SQR (x) ((x)(x))//错误，SQR被定义成(x) ((x)(x))

#，##和\

把一个宏的参数转换为字符串常量使用 # 。在宏中使用的该运算符有一个特定的参数或参数列表。

例子：

输出结果为：hello world！

##可以把位于它两边的符号合成一个符号。
例子：

输出结果：SQR10 = 100

如果宏太长，一个单行容纳不下，可使用宏延续运算符（\），前面两个例子都用了

预定义宏

ANSI C 定义了许多宏。在编程中可以使用这些宏，但是不能直接修改这些预定义的宏。

宏	描述
DATE	当前日期，一个以 “MMM DD YYYY” 格式表示的字符串常量
TIME	当前时间，一个以 “HH:MM:SS” 格式表示的字符串常量。
FILE	当前文件名的一个字符串常量。
LINE	当前行号的一个整形常量。
STDC	当编译器以 ANSI 标准编译时，则定义为 1。

例如：（VS2022不遵从ANSI标准。。。）

宏与函数的比较

在原理上：宏被编译器在预处理阶段进行了替换，导致宏无法调试和代码长度变长，但这也让宏的速度比函数更快一丢丢，因为函数调用和返回都需要开销。

在参数上：宏的参数无需指定类型，一方面适用性更强，但是也不够严谨，对应函数参数类型固定，更加严谨。宏的参数都得加（），还有整个宏，避免操作符优先级产生问题。如果宏的参数有副作用，宏就可能有问题，函数则更安全些。

最后，宏不能递归，函数可以递归，宏和函数各有千秋吧。

条件编译

要控制语句是否编译可以用条件编译指令。

常见的条件编译指令：

1. 
#if 常量表达式
//...
#endif
//常量表达式由预处理器求值。
如：
#define DEBUG 1
#if DEBUG
//..
#endif

    
2.多个分支的条件编译
#if 常量表达式
//...
#elif 常量表达式
//...
#else
//...
#endif

    
3.判断是否被定义
#if defined(symbol)
#ifdef symbol
#if !defined(symbol)
#ifndef symbol

    
4.嵌套指令
#if defined(OS_UNIX)
 #ifdef OPTION1
unix_version_option1();
#endif
#ifdef OPTION2
unix_version_option2();
 #endif
#elif defined(OS_MSDOS)
 #ifdef OPTION2
 msdos_version_option2();
 #endif
#endif

文件包含

包含头文件时可以用：

#include<filename.h>

#include"filename.h"

两种方式：两者不同处是前者是到系统指定目录取查找头文件，而后者则先从当前工作目录去查找。故引用库的头文件一般用前者，引用自己的头文件用后者。

从预处理我们知道预处理阶段会处理#include预编译指令，将包含的头文件插入到指令的位置，并且是递归进行。

为避免头文件的重复包含，可以在头文件下用条件编译指令：

#ifndef __TEST_H__
#define __TEST_H__
//头文件的内容
#endif   //__TEST_H__

或者用 #pragma once来避免头文件重复包含。

裙下的霸气

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
程序编译和预处理

ANSI C 定义了许多宏。在编程中可以使用这些宏，但是不能直接修改这些预定义的宏。宏描述DATE当前日期，一个以 “MMM DD YYYY” 格式表示的字符串常量TIME当前时间，一个以 “HH:MM:SS” 格式表示的字符串常量。FILE当前文件名的一个字符串常量。LINE当前行号的一个整形常量。STDC当编译器以 ANSI 标准编译时，则定义为 1。例如：（VS2022不遵从ANSI标准。。。）
复制链接

扫一扫