C语言学习记录—程序环境和预处理-CSDN博客

本文链接：https://blog.csdn.net/Awkwardx/article/details/135444993

第一章：程序的翻译环境和执行环境

在ANSI C（标准C）的任何一种实现中，存在两个不同的环境。
第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令（二进制指令）。
第2种是执行环境，它用于实际执行代码

第二章：详解编译+链接

2.1 翻译环境

组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）。
每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序。
链接器同时也会引入标准C函数库中任何被该程序所用到的函数，而且它可以搜索程序员个人的程序库，将其需要的函数也链接到程序中。

一个工程中可能有很多个.c文件（例如test.c add.c sub.c），因为一个开发组里每个人都要写代码，不可能都写到一个.c文件中，否则无法协同（都写到一个文件中意味着第一个人写的时候，其他人只能等待）。所以在代码工程里，大家都是分模块去写，这时必然产生多个.c文件。

那编译器（vs使用的是cl.exe）是如何处理多个.c文件呢？

每一个.c文件被称为源文件，每个源文件都会单独经过编译器处理（编译器实际只有一个），生成自己对应的目标文件（.obj文件就是Windows环境下的目标文件）。Linux环境下的gcc编译器的目标文件是.o为后缀的文件。

多个目标文件一起再加上链接库（头文件依赖的库（库文件）由链接库提供），经过链接器（vs使用的是link.exe）的处理，最终生成可执行程序（可执行程序是.exe文件）。

2.2 编译本身也分为几个阶段：

test.c源文件是如何经过编译和链接生成test.exe可执行程序？

编译还分三个小阶段：预编译/预处理、编译、汇编。（演示基于Linux环境下的gcc编译器。）

预处理阶段

使用gcc -E test.c -o test.i 指令生成test.i文件。将预处理后的结果都放在该文件中。该阶段将会完成：

头文件的包含 - #include
define定义符号的替换 - 删除定义的符号
注释的删除

预处理阶段都是文本操作。

编译阶段

使用gcc test.i -S 生成test.s文件。
该阶段经过语法分析、词法分析、符号汇总、语义分析把C语言代码转换成汇编代码。
语法、词法分析：把C语言代码的类型、变量名、赋值符号、数值等符号拆开在汇总成语法树。
语义分析：比如循环的语义。
符号汇总：把全局符号进行汇总（全局变量、函数名包括主函数）

汇编阶段

使用gcc test.s -c 生成test.o文件
把汇编代码转换成二进制指令（机器指令），同时形成符号表。
符号表：给每个源文件的所有全局符号关联一个地址形成符号表，对于仅声明的符号（即仅声明未定义的函数）匹配一个无效地址。

链接阶段

1. 合并段表

.o目标文件有具体格式，在Linux环境下是elf格式。该格式会将.o文件分成一段一段，每个段存储相应的数据。将多个.o文件和链接库进行整体链接输出一个可执行程序。Linux环境下的可执行程序也是elf格式。合并段表就是将相同格式的文件进行合并。

2. 符号表的合并和重定位

多个.o文件的符号表也进行合并，最终的可执行程序中只有一个符号表。当发现有相同符号时，经过分析会选择地址有效的那个。链接期间是否能使用一个函数取决于该函数是否具有有效地址。各函数具备有效地址，可执行程序才能用符号表查找该函数。
上述两点的作用是为了在链接期间能够跨文件找到函数。

2.3 运行环境

程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。在独立的环境中（无操作系统），程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。
程序的执行便开始。接着便调用main函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack，即函数栈帧），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
终止程序。正常终止main函数；也有可能是意外终止。

第三章：预处理详解

3.1 预定义符号

__FILE__      //进行编译的源文件
__LINE__     //文件当前的行号
__DATE__    //文件被编译的日期
__TIME__    //文件被编译的时间
__STDC__    //如果编译器遵循ANSI C，其值为1，否则未定义

#include <stdio.h>
#include <stdlib.h>
int main()
{
	FILE* pf = fopen("log.txt", "w");
	if (!pf)//当pf为NULL时，!pf就是非空，非空为真，进入if内部，即pf为空指针时报错
	{
		perror("fopen");
		return EXIT_FAILURE;
	}

	int i = 0;
	for (i = 0; i < 10; i++)
	{
		//这些信息可以用于记录日志
		fprintf(pf, "file:%s line:%d date:%s time:%s i=%d\n", __FILE__, __LINE__, __DATE__, __TIME__, i);
	}
	fclose(pf);
	pf = NULL;
	return 0;
}

vs2019遵循ANSI C

int main()
{
	printf("%d\n", __STDC__);//vs没有遵循ANSI C
	return 0;
}

3.2 #define

3.2.1 #define 定义标识符

示例

#define MAX 1000
#define STR "hello bit"
#define print printf("hehe\n")
int main()
{
	//预处理阶段会删除#define MAX 1000，且将所有MAX都替换为1000
    //其他符号同理
	int m = MAX;
	printf("%d\n", MAX);

	printf("%s\n", STR);

	print;
	return 0;
}

提问：在define定义标识符的时候，要不要在最后加上;

//比如：
#define MAX 1000;
//建议不要加上 ; ,这样容易导致问题。
//比如下面的场景：
if(condition)
 max = MAX;
else
 max = 0;
//这里会出现语法错误。

不推荐写法：#define CASE break;case

#define CASE break;case //在写case语句的时候自动把 break写上。
int main()
{
	//标准写法
	switch (1)
	{
	case 1:
		break;
	case 2:
		break;
	case 3:
		break;
	case 4:
		break;
	}

	//#define写法
	switch (1)
	{
	case 1:
	CASE 2:
	CASE 3:
	CASE 4:
	}
}

#define定义内容过长

如果定义的 stuff过长，可以分成几行写，除了最后一行外，每行的后面都加一个反斜杠(续行符)。
因为每次都要按下回车让内容去到下一行，所以续行符相当于转义了回车。（续行符后面不能有空格或其他内容，否则就不是转义回车）

#define DEBUG_PRINT printf("file:%s\tline:%d\t \
                          date:%s\ttime:%s\n" , \
                          __FILE__,__LINE__ , \
                          __DATE__,__TIME__ )

3.2.2 #define 定义宏

#define 机制包括了一个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或定义宏（define macro）。

下面是宏的申明方式：
#define name( parament-list ) stuff
其中的 parament-list 是一个由逗号隔开的符号表，它们可能出现在stuff中。

注意：
参数列表的左括号必须与name紧邻。
如果两者之间有任何空白存在，参数列表就会被解释为stuff的一部分(即#define定义的符号)。

示例1

#define SQUARE1(X) X*X
//宏名SQUARE	 参数(X)	 宏体X*X

#define SQUARE2(X) ((X)*(X))
//改为上方写法较为严谨，可以避免操作符优先级的影响
int main()
{
	int r = SQUARE1(5);//求5的平方
	printf("%d\n", r);

	//上方宏SQUARE1设计有缺陷，示例如下：
	int m = SQUARE1(5 + 1);
	printf("%d\n", m);//11
	//当写成SQUARE(5 + 1)这种有操作符形式时，并不是计算6的平方
	//X为5+1，宏体X*X 为 5+1 * 5+1，宏只是替换

	int n = SQUARE2(5 + 1);
	printf("%d\n", n);//36
	//尽量给参数和宏体的整体带上括号，避免操作符优先级的影响
	return 0;
}

示例2

#define DOUBLE1(X) (X)+(X)

#define DOUBLE2(X) ((X)+(X)) //宏体的整体加上括号更为严谨
int main()
{
	int r = DOUBLE1(3);
	printf("%d\n", r);//6

	int m = 10 * DOUBLE1(3);
	printf("%d\n", m);//33 结果并不是所期望的10*6=60
	//替换后：10 * (3) + (3)，先计算10*3，再+3。所以要将宏体的整体加上括号

	int n = 10 * DOUBLE2(3);
	printf("%d\n", n);//60

	return 0;
}

3.2.3 #define 替换规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。

在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值所替换。
最后，再次对结果文件进行扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。

注意：

宏参数和#define 定义中可以出现其他#define定义的符号。但是对于宏，不能出现递归。
当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

#define M 100
#define DOUBLE(X) ((X)+(X))
int main()
{
	DOUBLE(M + 2);
	//首先执行上述的第一个步骤，检查参数，将参数的定义符号替换
	//即DOUBLE(100 + 2);
	//然后执行上述的第二个步骤，
	//即((100 + 2) + (100 + 2));
	
	//对于"M"；"DOUBLE(3)"这样的字符串不会替换，因为他们是字符串的内容
	return 0;
}

3.2.4 #和##

如何把参数插入到字符串中？

#用法

使用 # ， 把一个宏参数变成对应的字符串

void print(int n)
{
	printf("The value of n is %d\n", n);
}

#define PRINT(N) printf("the value of "#N" is %d\n", N)
//字符串内不能直接使用N，否则N就会被替换为变量名，语法错误
//#N就是让替换的变量名转换为字符串
//printf("the value of ""a"" is %d\n", a)
#define PRINT2(N, FORMAT) printf("the value of "#N" is "FORMAT"\n", N)
int main()
{
	printf("hello world\n");
	printf("hello ""world\n");
    //上方两种方式效果一样    

    int a = 10;
    printf("The value of a is %d\n", a);
    int b = 20;
    printf("The value of b is %d\n", b);
    print(a);
	//如果想要封装上方代码，函数做不到，因为字符串里面的内容(a,b)不能随着参数不同而变化
	
    int a = 10;
	PRINT(a);//the value of a is 10
	int b = 20;
	PRINT(b);//the value of b is 20

	int c = 30;
	PRINT2(c, "%d");//the value of c is 30
	float d = 40.0f;
	PRINT2(d, "%lf");//the value of d is 40.000000
	return 0;
}

##用法

## 可以把位于它两边的符号合成一个符号。

它允许宏定义从分离的文本片段创建标识符。

#define CAT(Class, Num) Class##Num
int main()
{
	int Class106 = 100;
	printf("%d\n", CAT(Class, 106));
	//##就是把两边的参数合并成一个符号，预处理后CAT(Class, 106)就替换成Class106
    //注意：这样的连接必须产生一个合法的标识符。否则其结果就是未定义的。
	return 0;
}

3.2.5 带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。

带有副作用代码

#define MAX(x,y) ((x)>(y)?(x):(y))
int main()
{
    int a = 10;
    int b = a + 1;// b=11,a=10 不带副作用
    int b = ++a;  // b=11,a=11 带有副作用

    int m1 = MAX(2, 3);
    printf("%d\n", m);//3
    
    //带有副作用参数
    int a = 5;
	int b = 4;
	int m2 = MAX(a++, b++);
	//替换后
	//int m = ((a++) > (b++) ? (a++) : (b++));
	//先使用	     5   >   4
	//后++      a=6     b=5
	//因为5>4(表达式1)为真，表达式2计算，表达式2的结果是整个表达式的结果，即计算a++
	//此时a=6，先使用后++。所以整个表达式的结果是6（即m=6），使用完后++，a=7。而表达式3(b++)没有机会计算

	printf("m2=%d\n", m2);//m=6
	printf("a=%d b=%d\n", a, b);//a=7 b=5


	return 0;
}

3.2.6 宏和函数对比

宏通常被应用于执行简单的运算。

比如在两个数中找出较大的一个。

//宏的形式
#define MAX(x,y) ((x)>(y)?(x):(y))

//函数形式
int Max(int x, int y)
{
	return (x > y ? x : y);
}

那为什么不用函数来完成这个任务？

原因有二：
1. 用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。（函数调用：参数传参，栈帧创建；计算；函数返回）
所以宏比函数在程序的规模和速度方面更胜一筹。
2. 更为重要的是函数的参数必须声明为特定的类型。
所以函数只能在类型合适的表达式上使用。反之这个宏怎可以适用于整形、长整型、浮点型可以用于>来比较的类型。
宏是类型无关的。

宏的缺点：当然和函数相比宏也有劣势的地方：

每次使用宏的时候，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
宏是没法调试的。（调试时程序已经开始运行，我们看到的是宏，但执行的是已经经过预处理也就是替换后的代码）
宏由于类型无关，也就不够严谨。
宏可能会带来运算符优先级的问题，导致程容易出现错。

宏有时候可以做函数做不到的事情。

比如：宏的参数可以出现类型，但是函数做不到。

#define MALLOC(num, type) (type*)malloc((num)*sizeof(type))
int main()
{
	//假设想用下面方式开辟空间(因为方便，可读性强)，但函数不支持，因为传参不能传类型
	//malloc(10, int);
	int* p = MALLOC((10), int);
	//替换后 (int*)malloc((10)*sizeof(int))
	return 0;
}

宏和函数的一个对比

3.2.7 命名约定

一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者。那我们平时的一个习惯是：
把宏名全部大写
函数名不要全部大写

3.3 #undef

#define M 100
int main()
{
	printf("%d\n", M);
//#undef M //取消宏 这条指令用于移除一个宏定义。
	//printf("%d\n", M);
	return 0;
}

3.4 命令行定义

许多C 的编译器提供了一种能力，允许在命令行中定义符号。用于启动编译过程。
例如：当我们根据同一个源文件要编译出一个程序的不同版本的时候，这个特性有点用处。（假定某个程序中声明了一个某个长度的数组，如果机器内存有限，我们需要一个很小的数组，但是另外一个机器内存大些，我们需要一个数组能够大些。）

#include <stdio.h>
int main()
{
    int array [ARRAY_SIZE];
    int i = 0;
    for(i = 0; i< ARRAY_SIZE; i ++)
   {
        array[i] = i;
   }
    for(i = 0; i< ARRAY_SIZE; i ++)
   {
        printf("%d " ,array[i]);
   }
    printf("\n" );
    return 0;
}

编译指令：

//linux 环境演示
gcc -D ARRAY_SIZE=10 programe.c

3.5 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的。因为我们有条件编译指令。
比如说：
调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译。

#define __DEBUG__ 
int main()
{
	int i = 0;
	int arr[10] = { 0 };
	for (i = 0; i < 10; i++)
	{
		arr[i] = i;
#ifdef __DEBUG__ //ifdef就是如果定义了就为真，参与编译。如果没定义，为假，不参与编译
		printf("%d\n", arr[i]);//为了观察数组是否赋值成功。 
#endif //__DEBUG__
	}
	return 0;
}

常见的条件编译指令：

1. #if #endif

//#if 常量表达式
//    //...
//#endif
//常量表达式由预处理器求值。
int main()
{
#if 1 //如果是1，为真，参与编译；如果为0，为假，不参与编译
	printf("hehe\n");
#endif // 1

    //或者
#define __DEBUG__ 1
#if __DEBUG__
    //..
#endif
	return 0;
}

2. 多个分支的条件编译

//#if 常量表达式
//...
//#elif 常量表达式
//...
//#else
//...
//#endif

#define M 3
int main()
{
#if M<5
	printf("hehe\n");
#elif M==5
	printf("haha\n");
#else
	printf("heihei\n");
#endif
	return 0;
}

3. 判断是否被定义

//#if defined(symbol)
//#ifdef symbol
//#if !defined(symbol)
//#ifndef symbol

#define MAX 100
int main()
{
#if defined(MAX) //如果定义了，参与编译
	printf("max\n");
#endif

#if !defined(MAX) //如果没有定义，参与编译
	printf("max\n");
#endif

	return 0;
}

//第二种写法
#define MIN 0
int main()
{
#ifdef MIN
	printf("%d\n", MIN);
#endif // MIN

#ifndef MIN
	printf("%d\n", MIN);
#endif // !MIN

	return 0;
}

4. 嵌套指令

int main()
{
#ifdef OS_UNIX
	#ifdef OPTION1
		unix_version_option1();
	#endif // OPTION1
	
	#ifdef OPTION2
		unix_version_option2();
	#endif // OPTION2

#elif OS_MSDOS
	#ifdef OPTION2
		msdos_version_option2();
	#endif // OPTION2

#endif // OS_UNIX

	return 0;
}

3.6 文件包含

3.6.1 头文件被包含的方式：

本地文件包含

#include "filename"

库文件包含

#include <filename.h>

<>和""的区别是查找的策略不同

#include <stdio.h>
<>查找策略：直接去库目录下查找

#include "test.h"
""查找策略：
1. 先去代码所在路径查找
2. 如果上面找不到，再去库目录下查找

这样是不是可以说，对于库文件也可以使用 "" 的形式包含？
答案是肯定的，可以。
但是这样做查找的效率就低些，当然这样也不容易区分是库文件还是本地文件了。

3.6.2 嵌套文件包含

我们已经知道， #include 指令可以使另外一个文件被编译。就像它实际出现于 #include 指令的地方一样。
这种替换的方式很简单：
预处理器先删除这条指令，并用包含文件的内容替换。
这样一个源文件被包含10次，那就实际被编译10次。

//test.c文件
#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"
//头文件被多次包含，头文件的内容也被多次拷贝并编译
int main()
{
	return 0;
}

实际场景

comm.h和comm.c是公共模块。
test1.h和test1.c使用了公共模块。
test2.h和test2.c使用了公共模块。
test.h和test.c使用了test1模块和test2模块。
这样最终程序中就会出现两份comm.h的内容。这样就造成了文件内容的重复。

如何解决这个问题？
答案：条件编译。

解决方法

//方案1：
#ifndef __TEST_H__ 
//如果没有定义__TEST_H__，就执行下方代码。此时上方还没有定义，所以条件为真，所以下面代码参与编译
//第二次包含头文件时，已经定义过__TEST_H__，#ifndef条件为假，所以下方代码不参与编译
//此写法可以防止头文件被多次包含，假设头文件有1000行代码，被重复包含5次就是5000行代码
#define __TEST_H__
int Add(int x, int y);
#endif // !__TEST_H__

//方案2：
#pragma once
int Add(int x, int y);

//作用都是：防止头文件被多次重复包含