详解程序的预处理与编译与连接

Yui_

于 2024-07-27 20:32:50 发布

阅读量654

点赞数 9

分类专栏： C语言文章标签：算法

本文链接：https://blog.csdn.net/2303_79015671/article/details/140740676

版权

C语言专栏收录该内容

28 篇文章 0 订阅

订阅专栏

1.程序的翻译环境和执行环境

在ANSI C的任何一种实现中，存在两个不同的环境。

第一种是翻译环境，在这个环境中源代码被转换为可执行的机器指令。
第二种是执行环境，它用于实际执行代码。

2.详解编译+链接

2.1 翻译环境

编译环境

组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）
每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序。
链接器同时也会引入标准C语言中的任何被该程序所用到的函数，而且它可以搜索程序员个人的程序库，将需要的函数也链接到程序中。

2.2 编译本身也分为几个阶段

Add.c

int val = 2024;
void Add(int x,int y)
{
	printf("%d\n",x+y);
}

test.c

#include <stdio.h>
int main()
{
	extern void Add(int x,int y);
	extern int val;
	printf("hello\n");
	return 0;
}

编译连接

提问：如何查看编译期间的每一步发生了什么？

#include <stdio.h>
int main()
{
	for(int i = 0;i<10;++i)
	{
		printf("%d ",i);
	}
	return 0;
}

利用Linux的指令来演示

1.预处理指令gcc -E test.c -o test.i
预处理完成之后就停下来，预处理之后产生的结果都放在test.i文件中
2.编译指令gcc -S test.c
编译完成后就停下来，结果保存在test.s中
3.汇编gcc -c test.c
汇编完成后就停下来，结果保存在test.o中

2.3 运行环境

程序执行的过程：
1.程序必须载入内存。在有操作系统的环境中：一般这个由操作系统来完成。在独立的环境中，程序的载入必须由手工安排，也可能通过可执行代码置入只读内存来完成。
2.程序的执行开始，接着便调用main函数。
3.开始执行程序代码。这个时候程序将一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储来静态内存中的变量在程序的整个执行过程一直保留它们的值。
4.终止程序。正常终止main函数；也可能是意外终止。

3.预处理详解

3.1 预处理符号

__FILE__ //进行编译的源文件
__LINE__ //文件当前的行号
__DATE__ //文件被编译的日期
__TIME__ //文件被编译的时间
__STDC__ //如果编译器遵循ANSI C，其值为1，否则未定义

这些预定义符号都是语言内置的。

#include <stdio.h>
int main()
{
	printf("data:%s\n",__DATE__);
	printf("time:%s\n",__TIME__);
	return 0;
}
//打印结果：
/*
data:Jul 27 2024
time:10:03:18
*/

3.2 #define

3.2.1 #define 定义标识符

#define name stuff

#define MAX 100
#define REG register //为register这个关键词，创建一个简短的名字
#define DO_FOREVER for(;;) //用更现象的符号来替换一种实现
#define CASE break;case //在写case语句时自动加上break
//如果定义的stuff过长，可以分为几行写，除了最后一行外，每行的后面加上一个反斜杆
#define DEBUG_PRINT printf("data:%s,\
					time:%s\n",__DATE__,\
					__TIME__)

提问：

在define定义标识符时，要不要再最后加上分号。

如：

#define MAX 100;
#define MAX 100

回答：不要加上分号，容易出问题。

if(1)
	m = MAX;
else
	m = 0;

//如果添加分号，代码变为：
if(1)
	m = 100;;
else
	m = 0;
//两个分号的存在使得else无法匹配if

3.2.2 #define定义宏

#define机制包括一个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或者定义宏（define macro）。

下面是宏的声明方式：

#define name(parament-list) stuff

其中的parament-list是由逗号隔开的符号表，它们可能出现再stuff中。
注意：
参数列表的左括号必须于name紧邻。
如果两者之间由任何空格存在，参数列表就会被解释为stuff的一部分。
如

#define SQUARE(x) x*x

这个宏接收一个参数x.如果再上述声明之后，你把

SQUARE(5);

置于程序中，预处理器就会用下面这个表达式替换上面的表达式：

5*5;

警告
这个宏存在一个问题：
观察下面代码

#include <stdio.h>
#define SQUARE(x) x*x
int main()
{
	int a = 5;
	printf("%d\n",SQUARE(a+1));
	return 0;
}
//打印结果
//11

可能你会觉得应该是36才对啊，怎么会是11呢。
因为宏只是单纯的替换，不会像函数那样先算好。

替换文本时，参数x被替换成了a+1，所以这条语句实际上变成了：
a+1*a+1

这样就清楚了。
为了解决这种问题，我们再定义宏时一定要多加括号

#define SQUARE(x) ((x)*(x))

最外层的括号也要加上否则可能出现这种情况

#define DOUBLE(x) (x)+(x)

int a = 5;
printf("%d\n",10*DOUBLE(a));

//替换
printf("%d\n",10*(5)+(5));

总结

所有用于数值表达式进行求值得宏定义都应该用这种方式加上括号，避免使用宏时由于参数中的操作符或者临近操作符间不可预料的相互作用。

3.2.3 #define 替换规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。
1.在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
2.替换文本随后被插入到程序中原本文本的位置。对于宏，参数名被它们的值所替换。
3.最后，再次对结果文件进行扫描，看看它是否包含任何由#define定义的符号，如果是，就重复上述处理过程。
注意
1.宏参数和#define定义中可以出现其他#define定义的符号。但是对于宏，不能出现递归。
2.当预处理搜索#define定义的符号时，字符串常量的内容并不被搜索。

3.2.4 #和##

提问

如何把参数插入到字符串中？

#include <stdio.h>

int main()
{
	printf("hello ""world\n");
	printf("hello world\n");
	return 0;
}
//打印结果
/*
hello world
hello world
*/

从这段代码我们可以知道，字符串是有自动连接的特点的。
了解了这个特点后，就学会了两种技巧
技巧1

#define PRINT(FORMAT,VAL) printf("the value is" \
                                 FORMAT"\n",VAL)
PRINT("%d",10);

注意只有当字符串作为宏的时候才可以把字符串放在字符串中。
另一个技巧：
使用#,把宏参数变成对于的字符串。

#include <stdio.h>
#define PRINT(FORMAT,VAL) printf("the value of " \
                                 #VAL" is "FORMAT"\n",VAL)
int main()
{
	int i = 10;
	PRINT("%d", i + 3);
	return 0;
}
//打印结果
/*
the value of i + 3 is 13
*/

代码中的#VAL会被处理为"VAL"
##的作用

##可以把位于它两边的符号合成一个符号。
它允许宏定义从分离的文本片段创建标识符。

#include <stdio.h>

#define ADD_TO_SUM(num,val) sum##num += val

int main()
{
	int sum5 = 0;
	ADD_TO_SUM(5, 10);//作用是：给sum5增加10
	return 0;
}

注意：
这样的连接必须产生一个合法的标识符，否则结果就是未定义的。

3.2.5 带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。

x+1;//不带副作用
x++;//带有副作用

MAX宏可以证明带有副作用的城市所引起的问题。

#include <stdio.h>

#define MAX(a,b) ((a)>(b)?(a):(b))

int main()
{
	int x = 5;
	int y = 8;
	int z = MAX(x++, y++);
	printf("x = %d y = %d z = %d\n", x, y, z);
	return 0;
}
//打印结果
/*
x = 6 y = 10 z = 9
*/

3.2.6 宏和函数对比

宏通常被应用于执行简单的运算。
比如在两个数中找出较大的一个

#define MAX(a,b) ((a)>(b)?(a):(b))

提问：为什么不用函数来实现同样的功能呢？
回答：

1.用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需的时间要更多.所以宏函数在程序规模和速度方面更胜一筹。
2.更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。反而宏可以适用于整型、长整型、浮点型等可以用>来比较的类型。宏是类型无关的

宏的缺点

1.每次适用宏时，一份宏的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
2.宏是没法调试的。
3.宏由于类型无关，也就不是很严谨。
4.宏可能会带来运算符优先级的问题，导致程序容易出错。

宏有时候可以做到函数做不到的事情。比如：宏的参数可以出现类型，但是函数就做不到。

#define MALLOC(num,type)\
        (type*)malloc(num*sizeof(type))
//使用
MALLOC(10,int);//类型作为参数

3.2.7宏和函数的一个对比

属性	#define定义宏	函数
代码长度	每次使用时，宏代码都会插入到程序中。除了非常小的宏外，程序大长度会大幅度增长	函数代码只出现于一个地方了；每次调用那个地方的同一份代码
执行速度	更快	存在函数的调用和返回的额外开销，所以相对慢一些
操作符优先级	宏参数的求值是在周围表达式的上下文环境里，除非加上括号，否则临近操作符的优先级可能会产生不可预料的后果，所以宏的书写要多些括号	函数参数只在函数调用的时候求值一次，它的结果值传递给函数。表达式的求值容易预测
带有副作用的参数	参数可能被替换到宏中的多个位置，所以带有副作用的参数求值可能会产生不可预料的结果	函数参数只在传参的时候求值一次，结果更容易控制。
参数类型	宏的参数与类型无关，只要对参数的操作是合法的，它就可以使用于任何参数类型。	函数的参数是与类型有关的，如果参数的类型不同，就需要不同的
调试	宏是不方便调试的	函数是可以逐语句调试的
递归	宏是不能递归的	函数是可以递归的

3.2.8 命名约定

一般来讲函数和宏的使用语法类似，所以语言本身无法帮我们区分二者。
那么我们平时的一个习惯是：

把宏的名字全部大小
函数名不要全部大写

3.3 #undef

这条指令用于移除一个宏定义

#undef NAME
//如果现存的一个名字需要被重新定义，那么它的旧名字首先要被移除。

3.4 命令行定义

许多C的编译器提供了一种能力，允许在命令行中定义符号。用于编译器过程。
例如：当我们根据同一个源文件要编译出不同的而一个程序的不同版本的时候，这个特性有点用处。（假定某个程序中声明了一个某长度的数组，如果机器内存有限，我们需要一个很小的数组，但是另一个机器的内存大些，我们需要一个数组能够变大。）

#include <stdio.h>
int main()
{
	int array[ARRAY_SIZE];
	for(int i = 0;i<ARRAY_SIZE;++i)
	{
		array[i] = i;
	}
	for(int i = 0;i<ARRAY_SIZE;++i)
	{
		printf("%d ",array[i]);
	}
	printf("\n");
	return 0;
}

编译指令

gcc -D ARRAY_SIZE=10 test.c

3.5 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的。因为我们有条件编译指令
比如：

调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译。

#include <stdio.h>
#define __DEBUG__
int main()
{
	int arr[10] = {0};
	for(int i = 0;i<10;++i)
	{
		arr[i] = i;
		#ifdef __DEBUG__
		printf("%d\n",arr[i]);//如果__DEBUG__未被定义，那么在编译阶段会删除条件编译中的内容。
		#endif
	}
	return 0;
}

常用的条件编译指令

//#if常量表达式  
//...
#endif  
//常量表达式由预处理器求值。  
//如：  
#define __DEBUG__ 1  
#if __DEBUG__  
//..  
#endif  

//2.多个分支的条件编译  
#if 常量表达式  
//...  
#elif 常量表达式  
//...  
#else  
//...  
#endif 

//3.判断是否被定义  
#if defined(symbol)  
#ifdef symbol  
#if !defined(symbol)  
#ifndef symbol  

//4.嵌套指令  
#if defined(OS_UNIX)  
	#ifdef OPTION1  
		unix_version_option1();  
	#endif  
	#ifdef OPTION2  
		unix_version_option2();  
	#endif  
#elif defined(OS_MSDOS)  
	#ifdef OPTION2  
		msdos_version_option2();  
	#endif  
#endif

3.6 文件包含

我们已经知道，#define指令可以使另一个文件被编译。就像它实际出现于#define指令的地方一样。
这种替换的方式很简单：
预处理器先删除这条指令，并用包含文件的内容替换。
这样一个文件被包含10次，那就实际被编译10次。

3.6.1 头文件被包含的方式

本地文件包含

#include "filename"

查找策略：先在源文件所在的目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在标准位置查找头文件。
如果找不到就提示编错误。
Linux环境的标准头文件的路径：

/usr/include

VS环境的标准头文件的路径：

C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\include

注意按照自己的安装路径去找。

库文件包含

#include <filename.h>

查找头文件直接去标准路径下去查找，如果找不到就提示编译出错。
这样是不是可以说，对于库文件也可以使用""的形式包含。
答案是可以的，
但是这样查找的效率就会低点，同时也不容易区分是库文件还是本地文件。

3.6.2 嵌套文件包含

嵌套文件包含

comm.h和comm.c是公共模块
test1.h和test1.c使用了公共模块
test2.h和test2.c使用了公共模块
test.h和test.c使用了test1模块和test2模块
这样程序中就会出现两份comm.h的内容。这样就造成了文件内容的重复。
如何解决
利用条件编译

#ifdef __TEST_H__
#define __TEST_H__
//头文件内容
#endif

或者

#pragma once

就可以避免头文件的重复引入。

4.其它预处理指令

#error
#pragma
#line
...

完