Linux-C C语言编译过程
一、简述
GCC(GNU Compiler Collection,即 GNU 编译器套装),是一套由 GNU 开发的编程 语言编译器。简单介绍使用gcc编译器将hello.c文件编译成为hello可执行文件的过程。
在伪终端下输入如下命令
Liang@ubuntu:~$ gcc hello.c -o hello (这个命令包括了编译的四个阶段:预处理、编译、汇编、链接)
含义:用 gcc 这个工具编译 hello.c,并生成一个二进制文件 hello。 其中 –o 的意义是 output,指明要生成的文件的名称,如果不写 –o hello ,默认生成 a.out 文件(Linux下.out后缀的是可执行文件,相当于windows下的.exe文件)。完成了从 C 源程序到 ELF 格式(Linux 系统下的可执行文件的格式)的全部步骤,生成的文件 hello是一个可以直接运行的二进制文件。
二、编译过程
1、预处理
GCC 在第一个阶段会调用预处理器 cpp 来对 C 源程序进行预处理,预处理就是 解释源程序当中的所有的预处理指令,如#include(文件包含)、#define(宏定义)、#if(条件编译) 等以井号’#’开头的 语句就是预处理指令。这些预处理指令将会在预处理阶段被解释掉,比如会把文件包含语句所指定 的文件拷贝进来,覆盖掉原来的#include 语句,所有的宏定义被展开,所有的条件编译语句将被执行等。除了处理这些预处理指令之外,GCC 还会把程序当中的注 释删除,另外添加必要的调试信息。
使用预处理命令:gcc hello -o hello.i -E 来获得预处理后的文件。
2、编译
将经过预处理之后生成的.i 文件进一步的翻译,它包括词法和语法的分析, 最终生成对应硬件平台的汇编语言,具体生成什么平台 的汇编文件取决于所采用的编译器,如果用的是 GCC,那么将会生成 x86 格式的汇编文件,如果用的是针对 ARM 平台的交叉编译器,那么将会生成 ARM 格式的汇编文件。
使用命令: gcc hello.i -o hello.s -S 获得 C 源程序经过预处理和编译之后的汇编程序。
3、汇编
编译器 gcc 调用汇编器 as 将汇编源程序翻译成 为可重定位文件。汇编指令跟处理器直接运行的二进制指令流之间基本是一一对应的关系, 该阶段只将.s 文件里面的汇编翻译成相应的指令。
使用命令:gcc hello.s -o hello.o -c 获得汇编后的文件。
生成的.o 文件是一个 ELF 格式的可重定位(relocatable)文件,所谓的可重定位,指的是该文件虽 然已经包含可以让处理器直接运行的指令流,但是程序中的所有的全局符号尚未定位,所谓 的全局符号,就是指函数和全局变量,函数和全局变量默认情况下是可以被外部文件引用的, 由于定义和调用可以出现在不同的文件当中,因此他们在编译的过程中需要确定其入口地 址,比如 a.c 文件里面定义了一个函数 func( ),b.c 文件里面调用了该函数,那么在完成第 三阶段汇编之后,b.o 文件里面的函数 func( )的地址将是 0,显然这是不能运行的,必须要 找到 a.c 文件里面函数 func( )的确切的入口地址,然后将 b.c 中的“全局符号”func 重新定 位为这个地址,程序才能正确运行。因此,接下来需要进行第四个阶段:链接、链接到其他文件。
4、链接
链接系统的标准 C 库、gcc 内置库等基本库文件。
使用命令:gcc hello.o -o hello -lc -lgcc 链接生成可执行文件,-lc 和-lgcc 是默认的,可以省略。
链接还会合并相同权限的段(section)。一个可执行镜像文件可以由多个可重定位文件链接而成,比如 a.o,b.o,c.o 这三个可重定位文件链接生成一个叫 做 x 的可执行文件( ELF 格式)ELF 格式是符合一定规范的文件格式,里面包含很多段(section),其中.text 段存放了运行代码,.data 段里面存放了已经初始化了的全局变量和静态局部变量,.rodata 段存放了程序中所有的常量等等,除了这些程序运行时需要用得到的代码和数据之外,还有一些是程序在 从磁盘加载到内存时需要提供给加载器的辅助信息,比如提供代码重定位信息的.rel.text 段, ELF 格式文件中的符号表.symtab 段等,这些信息将会在程序加载完毕之后被丢弃,而不会 存在于程序运行的内存当中。将多个不同的可重定位 ELF 格式文件链接成一个可执行 ELF 格式文件的过程中,会将它们不同的各个段按照“执行视图”合并起来,简言之,就是将具有相同权限的段合并到一起,比如各个文件中的具有只读权限的.text 段和.rodata 段将会被合并到一起,当程序有多个执行实例(多个进程)时,这些 执行实例会共享一个只读段的副本,从而节省内存空 间。
三、总结
objdump是linux下一款反汇编工具,能够反汇编目标文件、可执行文件。比如反汇编hello可执行文件:(部分截图)
命令选项
-
--archive-headers
-
-a
-
显示档案库的成员信息,类似ls -l将lib*.a的信息列出。
-
-b bfdname
-
--target=bfdname
-
指定目标码格式。这不是必须的,objdump能自动识别许多格式,比如:
-
objdump -b oasys -m vax -h hello.o
-
显示hello.o的头部摘要信息,明确指出该文件是Linux系统下用gcc编译器生成的目标文件。objdump -i将给出这里可以指定的目标码格式列表。
-
-C
-
--demangle
-
将底层的符号名解码成用户级名字,除了去掉所开头的下划线之外,还使得C++函数名以可理解的方式显示出来。
-
--debugging
-
-g
-
显示调试信息。企图解析保存在文件中的调试信息并以C语言的语法显示出来。仅仅支持某些类型的调试信息。有些其他的格式被readelf -w支持。
-
-e
-
--debugging-tags
-
类似-g选项,但是生成的信息是和ctags工具相兼容的格式。
-
--disassemble
-
-d
-
从objfile中反汇编那些特定指令机器码的section。
-
-D
-
--disassemble-all
-
与 -d 类似,但反汇编所有section.
-
--prefix-addresses
-
反汇编的时候,显示每一行的完整地址。这是一种比较老的反汇编格式。
-
-EB
-
-EL
-
--endian={big|little}
-
指定目标文件的小端。这个项将影响反汇编出来的指令。在反汇编的文件没描述小端信息的时候用。例如S-records.
-
-f
-
--file-headers
-
显示objfile中每个文件的整体头部摘要信息。
-
-h
-
--section-headers
-
--headers
-
显示目标文件各个section的头部摘要信息。
-
-H
-
--help
-
简短的帮助信息。
-
-i
-
--info
-
显示对于 -b 或者 -m 选项可用的架构和目标格式列表。
-
-j name
-
--section=name
-
仅仅显示指定名称为name的section的信息
-
-l
-
--line-numbers
-
用文件名和行号标注相应的目标代码,仅仅和-d、-D或者-r一起使用使用-ld和使用-d的区别不是很大,在源码级调试的时候有用,要求编译时使用了-g之类的调试编译选项。
-
-m machine
-
--architecture=machine
-
指定反汇编目标文件时使用的架构,当待反汇编文件本身没描述架构信息的时候(比如S-records),这个选项很有用。可以用-i选项列出这里能够指定的架构.
-
--reloc
-
-r
-
显示文件的重定位入口。如果和-d或者-D一起使用,重定位部分以反汇编后的格式显示出来。
-
--dynamic-reloc
-
-R
-
显示文件的动态重定位入口,仅仅对于动态目标文件意义,比如某些共享库。
-
-s
-
--full-contents
-
显示指定section的完整内容。默认所有的非空section都会被显示。
-
-S
-
--source
-
尽可能反汇编出源代码,尤其当编译的时候指定了-g这种调试参数时,效果比较明显。隐含了-d参数。
-
--show-raw-insn
-
反汇编的时候,显示每条汇编指令对应的机器码,如不指定--prefix-addresses,这将是缺省选项。
-
--no-show-raw-insn
-
反汇编时,不显示汇编指令的机器码,如不指定--prefix-addresses,这将是缺省选项。
-
--start-address=address
-
从指定地址开始显示数据,该选项影响-d、-r和-s选项的输出。
-
--stop-address=address
-
显示数据直到指定地址为止,该项影响-d、-r和-s选项的输出。
-
-t
-
--syms
-
显示文件的符号表入口。类似于nm -s提供的信息
-
-T
-
--dynamic-syms
-
显示文件的动态符号表入口,仅仅对动态目标文件意义,比如某些共享库。它显示的信息类似于 nm -D|--dynamic 显示的信息。
-
-V
-
--version
-
版本信息
-
--all-headers
-
-x
-
显示所可用的头信息,包括符号表、重定位入口。-x 等价于-a -f -h -r -t 同时指定。
-
-z
-
--disassemble-zeroes
-
一般反汇编输出将省略大块的零,该选项使得这些零块也被反汇编。