编译器背后的故事

最新推荐文章于 2024-10-30 13:57:55 发布

kelezaji

最新推荐文章于 2024-10-30 13:57:55 发布

阅读量96

点赞数

文章标签： linux

本文链接：https://blog.csdn.net/kelezaji/article/details/109115262

版权

本文详细介绍了C/C++程序从源代码到可执行文件的编译过程，包括预处理、编译、汇编和链接。讲解了静态库与动态库的区别，以及如何使用gcc生成和使用它们。同时，讨论了nasm汇编器、curses库的安装和使用，并探讨了静态库和动态库的搜索路径。此外，还涉及了GCC的编译选项和错误处理，以及第三方库函数的链接。

摘要由CSDN通过智能技术生成

可执行程序的组装

由C/C++语言编写的程序需要转换成为处理器能够执行的二进制代码，而这个过程需要编译器来完成，整个组装步骤包括：预处理，编译，汇编，链接。

预处理：作为完整编译过程的第一个阶段，它是在正式的编译阶段之前进行，主要包括以下过程：
(1) 将所有的#define 删除，并且展开所有的宏定义，并且处理所有的条件预编译指令，比如#if #ifdef #elif #else #endif 等。
(2) 处理#include 预编译指令，将被包含的文件插入到该预编译指令的位置。
(3) 删除所有注释“//”和“/* */”。
(4) 添加行号和文件标识，以便编译时产生调试用的行号及编译错误警告行号。
(5) 保留所有的#pragma 编译器指令，后续编译过程需要使用它们。

编译：编译过程就是对预处理完的文件进行一系列的词法分析，语法分析，语义分析及优化后生成相应的汇编代码。

汇编：汇编过程调用对汇编代码进行处理，生成处理器能识别的指令，保存在后缀为.o的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令，因此，汇编相对于编译过程比较简单，通过调用 Binutils 中的汇编器 as 根据汇编指令和处理器指令的对照表一一翻译即可。
当程序由多个源代码文件构成时，每个文件都要先完成汇编工作，生成.o 目标文件后，才能进入下一步的链接工作。注意：目标文件已经是最终程序的某一部分了，但是在链接之前还不能执行。

链接：链接也分为静态链接和动态链接，其要点如下：
(1) 静态链接是指在编译阶段直接把静态库加入到可执行文件中去，这样可执行文件会比较大。链接器将函数的代码从其所在地（不同的目标文件或静态链接库中）拷贝到最终的可执行程序中。为创建可执行文件，链接器必须要完成的主要任务是：符号解析（把目标文件中符号的定义和引用联系起来）和重定位（把符号定义和内存地址对应起来然后修改所有对符号的引用）。
(2) 动态链接则是指链接阶段仅仅只加入一些描述信息，而程序执行时再从系统中把相应动态库加载到内存中去。

动态库与静态库的使用

用gcc生成静态库和动态库

在这里插入图片描述
并且创建三个文件 hello.h hello.c main.c
在hello.h中编写代码

在hello.c中编写代码
在main.c中编写代码

将 hello.c 编译成.o 文件
无论静态库，还是动态库，都是由.o 文件创建的。因此，我们必须将源程序 hello.c 通过 g cc 先编译成.o 文件。在系统提示符下键入以下命令得到 hello.o 文件
编译完成后ls命令是查看
由.o 文件创建静态库。

这时目录下的文件可以查看为在这里插入图片描述

在程序中使用静态库。
静态库制作完了，如何使用它内部的函数呢？只需要在使用到这些公用函数的源程序中包含这些公用函数的原型声明，然后在用 gcc 命令生成目标文件时指明静态库名，gcc 将会从静态库中将公用函数连接到目标文件中。注意，gcc 会在静态库名前加上前缀 lib，然后追加扩展名.a 得到的静态库文件名来查找静态库文件。在程序 3:main.c 中，我们包含了静态库的头文件 hello.h，然后在主程序 main 中直接调用公用函数 hello。下面先生成目标程序 hello，然后运行 hello 程序看看结果如何。
输入命令并查看
由.o 文件创建动态库文件。
在程序中使用动态库；
在程序中使用动态库和使用静态库完全一样，也是在使用到这些公用函数的源程序中包含这些公用函数的原型声明，然后在用 gcc 命令生成目标文件时指明动态库名进行编译。我们先运行 gcc 命令生成目标文件，再运行它看看结果。 #gcc -ohellomain.c-L.-lmyhello或 #gccmain.clibmyhello.so-ohello
但是会出现以下错误
，原来是找不到动态库文件 libmyhello.so。程序在运行时，会在/usr/lib 和/lib 等目录中查找需要的动态库文件。若找到，则载入动态库，否则将提示类似上述错误而终止程序运行。我们将文件 libmyhello.so 复制到目录/usr/lib 中，再试试。

那当静态库和动态库同名时，gcc 命令会使用哪个库文件呢？
先删除除.c 和.h 外的所有文件，恢复成我们刚刚编辑完举例程序状态。
再来创建静态库文件 libmyhello.a 和动态库文件 libmyhello.so。
通过上述最后一条 ls 命令，可以发现静态库文件 libmyhello.a 和动态库文件 libmyhello.s o 都已经生成，并都在当前目录中。然后，我们运行 gcc 命令来使用函数库 myhello 生成目标文件 hello，并运行程序 hello。
从程序 hello 运行的结果中很容易知道，当静态库和动态库同名时，gcc 命令将优先使用动态库，默认去连/usr/lib 和/lib 等目录中的动态库，将文件 libmyhello.so 复制到目录/usr/lib 中即可。

静态库.a与.so库文件的生成与使用

先创建一个作业目录，创建这几个文件在这里插入图片描述

A1.c:
#include <stdio.h> void print1(int arg){ printf(“A1 print arg:%d\n”,arg); }
A2.c:
#include <stdio.h> void print2(char *arg){ printf(“A2 printf arg:%s\n”, arg); }
A.h
#ifndef A_H #define A_H void print1(int); void print2(char *); #endif
test.c:
#include <stdlib.h> #include “A.h” int main(){ print1(1); print2(“test”); exit(0); }

静态库.a 文件的生成与使用。
生成目标文件，然后生成静态库.a 文件，

再使用.a 库文件，创建可执行程序（若采用此种方式，需保证生成的.a 文件与.c 文件保存在同一目录下，即都在当前目录下）
在这里插入图片描述

共享库.so 文件的生成与使用
生成目标文件(xxx.o)（此处生成.o 文件必须添加"-fpic"(小模式，代码少)，否则在生成.so 文件时会出错）
生成共享库.so 文件
使用.so 库文件，创建可执行程序

出现图示错误后
运行 ldd test，查看链接情况
发现确实是找不到对应的.so 文件。
这是由于 linux 自身系统设定的相应的设置的原因，即其只在/lib and /usr/lib 下搜索对应的.so 文件，故需将对应 so 文件拷贝到对应路径。在这里插入图片描述

x2x,x2y函数

先扩展写一个x2y函数
在这里插入图片描述
再修改第一次作业的main.c文件

将第一次的作业的x2x和x2y和main函数代码分别写成单独的3.c文件

再用gcc分别编译3个.o目标文件
将x2x,x2y目标文件用ar工具生成一个.a静态库文件，然后用gcc将main函数的目标文件与此静态库文件进行链接生成最终的可执行程序在这里插入图片描述
运行结果及文件大小如图

动态库文件与静态库文件对比

将x2x,x2y目标文件生成一个.so动态库文件在这里插入图片描述
然后用gcc将main函数与此动态库文件进行链接，生成可执行文件
运行结果及文件大小
根据比较，静态库的代码在编译过程中已经被载入可执行程序，因此体积较大。共享库的代码是在可执行程序运行时才载入内存的，在编译过程中仅简单的引用，因此代码体积较小；如果一个系统中存在多个需要同时运行的程序且这些程序之间存在共享库，那么采用动态库的形式将更节省内存。

GCC不是一个人在战斗

Binutils

一组二进制程序处理工具，包括：addr2line、ar、objcopy、objdump、as、ld、
ldd、readelf、size 等。这一组工具是开发和调试不可缺少的工具，分别简介
如下：
(1) addr2line：用来将程序地址转换成其所对应的程序源文件及所对应的代码
行，也可以得到所对应的函数。该工具将帮助调试器在调试的过程中定位对
应的源代码位置。
(2) as：主要用于汇编，有关汇编的详细介绍请参见后文。
(3) ld：主要用于链接，有关链接的详细介绍请参见后文。
(4) ar：主要用于创建静态库。

ELF

1.ELF 文件的段
ELF 文件格式如下图所示，位于 ELF Header 和 Section Header Table 之间的都是段（Section）。一个典型的 ELF 文件包含下面几个段：
.text：已编译程序的指令代码段。
.rodata：ro 代表 read only，即只读数据（譬如常数 const）。
.data：已初始化的 C 程序全局变量和静态局部变量。
.bss：未初始化的 C 程序全局变量和静态局部变量。
.debug：调试符号表，调试器用此段的信息帮助调试。
在这里插入图片描述

GCC常用命令，GCC编译器背后的故事

编写如下命令
//test.c #include <stdio.h> int main(void) { printf(“Hello World!\n”); return 0; }
一步步的编译过程：
预处理:
在这里插入图片描述
编译为汇编代码

汇编代码

汇编

链接
3 多个程序文件的编译
通常整个程序是由多个源文件组成的，相应地也就形成了多个编译单元，使用 GCC 能够很好地管理这些编译单元。假设有一个由 test1.c 和 test2.c 两个源文件组成的程序，为了对它们进行编译，并最终生成可执行程序 test，可以使用下面这条命令：
gcctest1.ctest2.c-o test
如果同时处理的文件不止一个，GCC 仍然会按照预处理、编译和链接的过程依次进行。如果深究起来，上面这条命令大致相当于依次执行如下三条命令：
gcc -c test1.c -o test1.o gcc -c test2.c -o test2.o gcc test1.o test2.o -o test
4 检错
gcc -pedantic illcode.c -o illcode
-pedantic 编译选项并不能保证被编译程序与 ANSI/ISOC 标准的完全兼容，它仅仅只能用来帮助 Linux程序员离这个目标越来越近。或者换句话说，-pedantic 选项能够帮助程序员发现一些不符合 ANSI/ISOC 标准的代码，但不是全部，事实上只有 ANSI/ISOC 语言标准中要求进行编译器诊断的那些情况，才有可能被 GCC 发现并提出警告。
除了-pedantic 之外，GCC 还有一些其它编译选项也能够产生有用的警告信息。这些选项大多以-W 开头，其中最有价值的当数-Wall 了，使用它能够使 GCC 产生尽可能多的警告信息。
gcc -Wall illcode.c -o illcode
GCC 给出的警告信息虽然从严格意义上说不能算作错误，但却很可能成为错误的栖身之所。一个优秀的 Linux 程序员应该尽量避免产生警告信息，使自己的代码始终保持标准、健壮的特性。所以将警告信息当成编码错误来对待，是一种值得赞扬的行为！所以，在编译程序时带上-Werror 选项，那么 GCC 会在所有产生警告的地方停止编译，迫使程序员对自己的代码进行修改，如下：
gcc -Werror test.c -o test
5 库文件连接
开发软件时，完全不使用第三方函数库的情况是比较少见的，通常来讲都需要借助许多函数库的支持才能够完成相应的功能。从程序员的角度看，函数库实际上就是一些头文件（.h）和库文件（so、
或 lib、dll）的集合。。虽然 Linux 下的大多数函数都默认将头文件放到/usr/include/目录下，而库文件则放到/usr/lib/目录下；Windows 所使用的库文件主要放在 VisualStido 的目录下的 include 和 lib，以及系统文件夹下。但也有的时候，我们要用的库不再这些目录下，所以 GCC 在编译时必须用自己的办法来查找所需要的头文件和库文件。
例如我们的程序test.c是在 linux上使用 c连接 mysql，这个时候我们需要去 mysql官网下载 MySQL Connectors 的 C 库，下载下来解压之后，有一个 include 文件夹，里面包含 mysqlconnectors 的头文件，还有一个 lib 文件夹，里面包含二进制 so 文件 libmysqlclient.so
其中 inclulde 文件夹的路径是/usr/dev/mysql/include,lib 文件夹是/usr/dev/mysql/lib
5.1 编译成可执行文件
首先我们要进行编译 test.c 为目标文件，这个时候需要执行
gcc –c –I /usr/dev/mysql/include test.c –o test.o
5.2 链接
最后我们把所有目标文件链接成可执行文件:
gcc –L /usr/dev/mysql/lib –lmysqlclient test.o –o test
Linux下的库文件分为两大类分别是动态链接库（通常以.so 结尾）和静态链接库（通常以.a 结尾），二者的区别仅在于程序执行时所需的代码是在运行时动态加载的，还是在编译时静态加载的。
5.3 强制链接时使用静态链接库
默认情况下， GCC 在链接时优先使用动态链接库，只有当动态链接库不存在时才考虑使用静态链接库，如果需要的话可以在编译时加上-static 选项，强制使用静态链接库。
在/usr/dev/mysql/lib 目录下有链接时所需要的库文件 libmysqlclient.so 和 libmysqlclient.a，为了让 GCC 在链接时只用到静态链接库，可以使用下面的命令:
gcc –L /usr/dev/mysql/lib –static –lmysqlclient test.o –o test
静态库链接时搜索路径顺序：

ld 会去找 GCC 命令中的参数-L 2. 再找 gcc 的环境变量 LIBRARY_PATH 3. 再找内定目录 /lib /usr/lib/usr/local/lib 这是当初 compile gcc 时写在程序内的
动态链接时、执行时搜索路径顺序:
编译目标代码时指定的动态库搜索路径 2. 环境变量 LD_LIBRARY_PATH 指定的动态库搜索路径 3. 配置文件/etc/ld.so.conf 中指定的动态库搜索路径 4. 默认的动态库搜索路径/lib 5. 默认的动态库搜索路径/usr/lib
有关环境变量： LIBRARY_PATH 环境变量：指定程序静态链接库文件搜索路径 LD_LIBRARY_PATH 环境变量：指定程序动态链接库文件搜索路径

nasm

创建文件输入以下代码
; hello.asm
section .data ; 数据段声明
msg db “Hello, world!”, 0xA ; 要输出的字符串
len equ $ - msg ; 字串长度
section .text ; 代码段声明
global _start ; 指定入口函数
_start: ; 在屏幕上显示一个字符串
mov edx, len ; 参数三：字符串长度
mov ecx, msg ; 参数二：要显示的字符串
mov ebx, 1 ; 参数一：文件描述符(stdout)
mov eax, 4 ; 系统调用号(sys_write)
int 0x80 ; 调用内核功能
; 退出程序
mov ebx, 0 ; 参数一：退出代码
mov eax, 1 ; 系统调用号(sys_exit)
int 0x80 ; 调用内核功能

使用nasm命令编译链接执行
在这里插入图片描述

查看大小
在这里插入图片描述
hello world C代码编程生成的文件大小
根据对比,nasm编译器生成的可执行文件要比gcc编译的hello world C代码编程生成的文件小

第三方库函数

curses

curses是一个在Linux/Unix下广泛应用的图形函数库，作用是可以在终端内绘制简单的图形用户界面。

主要函数及功能

initscr()：初始化curses库和ttty（在开始curses编程之前，必须使用initscr()这个函数来开启curses模式）
refresh()：使屏幕按照你的意图显示。比较工作屏幕和真实屏幕的差异，然后refresh通过终端驱动送出那些能使真实屏幕于工作屏幕一致的字符和控制码。（工作屏幕就像磁盘缓存，curses中的大部分的函数都只对它进行修改）
echochar(ch)：显示某个字元

BBS

在控制面板“启用或关闭Windows功能”中启用"telnet client",然后在cmd中输入telnet bbs.newsmth.net，以游客身份体验一下远古时代的bbs
在这里插入图片描述

安装curses库

在Ubuntu中用命令sudo apt-get install libncurses5-dev下载curses库
在这里插入图片描述
curses函数库的头文件和库文件就被分别安装在/usr/include/和/usr/lib/下，在编译程序时，直接使用命令：gcc program.c -o program -lcurses完成编译，运行。