后知后觉-ELF

最新推荐文章于 2022-03-17 00:40:18 发布

「已注销」

最新推荐文章于 2022-03-17 00:40:18 发布

阅读量233

点赞数

分类专栏：计算机组成与系统架构

原文链接：https://blog.csdn.net/love_gaohz/article/details/41310597

版权

计算机组成与系统架构专栏收录该内容

14 篇文章 7 订阅

订阅专栏

在计算机科学中，是一种用于二进制文件、可执行文件、目标代码、共享库和核心转储的格式文件。

是UNIX系统实验室为应用程序二进制接口（ABI）而开发和发布的，也是Linux的主要可执行文件格式。

1999年，被86open项目选为x86架构上的类Unix操作系统的二进制文件标准格式，用来取代COFF。因其可扩展性与灵活性，也可应用在其它处理器、计算机系统架构的操作系统上。 [1]

ELF文件组成部分：

ELF头
程序头表
节
节头表

实际上，一个文件中不一定包含全部内容，而且它们的位置也未必如同所示这样安排，只有ELF头的位置是固定的，奇遇各部分的位置、大小等信息由ELF头中的各项值来决定。

ELF文件的三种类型：

.o可重定位文件
可执行文件
共享库

三种格式基本上从结构你是一样的，只是具体到每一个结构不同。

下面我们就从整体上看看这3种格式从文件内容上存储的方式，spec上有张图是比较经典的：如上图：
其实从文件存储的格式来说，上面的两种view实际上是一样的，Segment实际上就是由section组成的，将相应的一些section映射到一起就叫segment了,就是说segment是由0个或多个section组成的，实际上本质都是section。在这里我们首先来仔细了解一下section和segment的概念：section就是相同或者相似信息的集合，比如我们比较熟悉的.text .data .bss section，.text是可执行指令的集合，.data是初始化后数据的集合，.bss是未初始化数据的集合。实际上我们也可以将一个程序的所有内容都放在一起，就像dos一样，但是将可执行程序分成多个section是很有好处的，比如说我们可以将.text section放在memory的只读空间内，将可变的.data section放在memory的可写空间内。

从可执行文件的角度来讲，如果一个数据未被初始化那就不需要为其分配空间，所以.data和.bss一个重要的区别就是.bss并不占用可执行文件的大小，它只是记载需要多少空间来存储这些未初始化数据，而不分配实际的空间。

可以通过命令 $ readelf -l a.out 查看文件的格式和组成。

二。

站在汇编语言的角度，一个程序分为：

数据段--DS

堆栈段--SS

代码段--CS

扩展段--ES

站在高级语言的角度，根据APUE，一个程序分为如下段：

text

data(initialized)

bss

stack

heap

1.一般情况下，一个可执行二进制程序(更确切的说，在Linux操作系统下为一个进程单元，在UC/OSII中被称为任务)在存储(没有调入到内存运行)时拥有3个部分，分别是代码段(text)、数据段(data)和BSS段。这3个部分一起组成了该可执行程序的文件。

可执行的二进制程序=代码段（text）+数据段（data）+BSS段

2.当程序被加载到内存单元时，则需要另外两个域：堆域和栈域。图示为可执行代码存储态和运行态的结构对照图。

一个正在运行的C程序占用的内存单元为代码段、初始化数据段、未初始化数据段（BSS）、堆、栈。

3.在将应用程序加载到内存空间执行时，操作系统负责代码段、数据段和BSS段的加载，并将在内存中为这些段分配空间。栈亦由操作系统分配和管理而不需要程序员显式地管理；堆段由程序员自己管理，即显式地申请和释放空间。

4.动态分配与静态分配，二者最大的区别在于：1.直到Run-Time的时候，执行动态分配，而在Compile-Time的时候，就已经决定好了分配多少Text+Data+BSS+Stack.2.通过malloc（）动态分配内存的时候，需要程序员手动调用free()释放内存，否则容易导致内存泄露，而静态分配的内存则在进程执行结束后系统释放（Text,Data）,但Stac段中的数据很短暂，函数退出立即被销毁。

从可执行文件a.out的角度来讲，如果一个数据未被初始化那就不需要为其分配空间，所以.data和.bss一个重要的区别就是.bss并不占用可执行文件的大小，它只是记载需要多少空间来存储这些未初始化数据，而不分配实际的控件。

代码段 --text（code segment/text segment）
text段在内存中被映射为只读，但.data和.bss是可写的。
text段是程序代码段，在AT91库中是表示程序段的大小，它是由编译器在编译连接时自动计算的，当你在链接定位文件中将该符号放置在代码段后，那么该符号表示的值就是代码段大小，编译连接时，该符号所代表的值会自动代入到源程序中。

数据段 -- data
data包含静态初始化的数据，所以有初值的全局变量和static变量在data区。段的起始位置也是由连接定位文件所确定，大小在编译连接时自动分配，它和你的程序大小没有关系，但和程序使用到的全局变量，常量数量相关。数据段属于静态内存分配。

bss段--bss
bss是英文Block Started by Symbol的简称，通常是指用来存放程序中未初始化的全局变量的一块内存区域，在程序载入时由内核清0。BSS段属于静态内存分配。它的初始值也是由用户自己定义的连接定位文件所确定，用户应该将它定义在可读写的RAM区内，源程序中使用malloc分配的内存就是这一块，它不是根据data大小确定，主要由程序中同时分配内存最大值所确定，不过如果超出了范围，也就是分配失败，可以等空间释放之后再分配。BSS段属于静态内存分配。

stack：
栈(stack)保存函数的局部变量（但不包括static声明的变量， static 意味着在数据段中存放变量），参数以及返回值。是一种“后进先出”（Last In First Out，LIFO）的数据结构，这意味着最后放到栈上的数据，将会是第一个从栈上移走的数据。对于哪些暂时存贮的信息，和不需要长时间保存的信息来说，LIFO这种数据结构非常理想。在调用函数或过程后，系统通常会清除栈上保存的局部变量、函数调用信息及其它的信息。栈另外一个重要的特征是，它的地址空间“向下减少”，即当栈上保存的数据越多，栈的地址就越低。栈（stack）的顶部在可读写的RAM区的最后。

：栈又称堆栈，是用户存放程序临时创建的局部变量，也就是说我们函数括弧“{}”中定义的变量（但不包括static声明的变量，static意味着在数据段中存放变量）。除此以外，在函数被调用时，其参数也会被压入发起调用的进程栈中，并且待到调用结束后，函数的返回值也会被存放回栈中。由于栈的先进先出特点，所以栈特别方便用来保存/恢复调用现场。从这个意义上讲，我们可以把堆栈看成一个寄存、交换临时数据的内存区。

heap:
堆(heap)保存函数内部动态分配内存，是另外一种用来保存程序信息的数据结构，更准确的说是保存程序的动态变量。堆是“先进先出”（First In first Out，FIFO）数据结构。它只允许在堆的一端插入数据，在另一端移走数据。堆的地址空间“向上增加”，即当堆上保存的数据越多，堆的地址就越高。

堆是用于存放进程运行中被动态分配的内存段，它的大小并不固定，可动态扩张或缩减。当进程调用malloc等函数分配内存时，新分配的内存就被动态添加到堆上（堆被扩张）；当利用free等函数释放内存时，被释放的内存从堆中被剔除（堆被缩减）

一、C语言可执行代码结构

名称	内容
代码段	可执行代码、字符串常量
数据段	已初始化全局变量、已初始化全局静态变量、局部静态变量、常量数据
BSS段	未初始化全局变量，未初始化全局静态变量
栈	局部变量、函数参数
堆	动态内存分配

一般情况下，一个可执行二进制程序(更确切的说，在Linux操作系统下为一个进程单元，在UC/OSII中被称为任务)在存储(没有调入到内存运行)时拥有3个部分，分别是代码段(text)、数据段(data)和BSS段。这3个部分一起组成了该可执行程序的文件。

(1)代码段(text segment)：存放CPU执行的机器指令。通常代码段是可共享的，这使得需要频繁被执行的程序只需要在内存中拥有一份拷贝即可。代码段也通常是只读的，这样可以防止其他程序意外地修改其指令。另外，代码段还规划了局部数据所申请的内存空间信息。

代码段（code segment/text segment）通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定，并且内存区域通常属于只读, 某些架构也允许代码段为可写，即允许修改程序。在代码段中，也有可能包含一些只读的常数变量，例如字符串常量等。

(2)数据段(data segment)：或称全局初始化数据段/静态数据段(initialized data segment/data segment)。该段包含了在程序中明确被初始化的全局变量、静态变量(包括全局静态变量和局部静态变量)和常量数据。

(3)未初始化数据段：亦称BSS(Block Started by Symbol)。该段存入的是全局未初始化变量、静态未初始化变量。

BSS端的特点是:可读写的，在程序执行之前BSS段会自动清0。所以，未初始的全局变量在程序执行之前已经成0了。

而当程序被加载到内存单元时，则需要另外两个域：堆域和栈域。图1-1所示为可执行代码存储态和运行态的结构对照图。一个正在运行的C程序占用的内存区域分为代码段、初始化数据段、未初始化数据段(BSS)、堆、栈5个部分。

C语言中的5个段作用 - myswirl - 漩涡的窝

图1-1 C语言可执行代码结构

(4)栈段(stack)：存放函数的参数值、局部变量的值，以及在进行任务切换时存放当前任务的上下文内容。

(5)堆段(heap)：用于动态内存分配，即使用malloc/free系列函数来管理的内存空间。

在将应用程序加载到内存空间执行时，操作系统负责代码段、数据段和BSS段的加载，并将在内存中为这些段分配空间。栈段亦由操作系统分配和管理，而不需要程序员显示地管理；堆段由程序员自己管理，即显示地申请和释放空间。

另外，可执行程序在运行时具有相应的程序属性。在有操作系统支持时，这些属性页由操作系统管理和维护。

bss段（未手动初始化的数据）并不给该段的数据分配空间，只是记录数据所需空间的大小。
data（已手动初始化的数据）段则为数据分配空间，数据保存在目标文件中。

数据段包含经过初始化的全局变量以及它们的值。BSS段的大小从可执行文件中得到，然后链接器得到这个大小的内存块，紧跟在数据段后面。当这个内存区进入程序的地址空间后全部清零。包含数据段和BSS段的整个区段此时通常称为数据区。

二、例子演示，代码段、数据段和BSS段存储变量类型

#include <stdio.h>
const int    g_A       = 10;            //代码段
int            g_B       = 20;            //数据段
static int    g_C       = 30;            //数据段
static int    g_D;                    //BSS段
int            g_E;                    //BSS段
char        *p1;                    //BSS段

void main( )
{
    int            local_A;            //栈
    static int    local_C = 0;        //数据段
    static int    local_D;            //数据段
    
    char        *p3 = "123456";     //123456在代码段，p3在栈上

    p1 = (char *)malloc( 10 );      //堆，分配得来得10字节的区域在堆区
    strcpy( p1, "123456" );         //123456{post.content}放在常量区，编译器可能会将它与p3所指向 的"123456"优化成一块
    printf("\n");
    printf( "代码段,全局初始化变量, 只读const,  g_A,     addr:0x%08x\n", &g_A);
    printf("\n");
    printf( "数据段,全局变量,       初始化      g_B,     addr:0x%08x\n", &g_B);
    printf( "数据段,静态全局变量,   初始化,     g_C,     addr:0x%08x\n", &g_C);
    printf("\n");
    printf( "BSS段, 全局变量,       未初始化    g_E,     addr:0x%08x\n", &g_E, g_E );    
    printf( "BSS段, 静态全局变量,   未初始化,   g_D,     addr:0x%08x\n", &g_D );
    printf( "BSS段, 静态局部变量,   初始化,     local_C, addr:0x%08x\n", &local_C);
    printf( "BSS段, 静态局部变量,   未初始化,   local_D, addr:0x%08x\n", &local_D);
    printf("\n");
    printf( "栈,    局部变量,                   local_A, addr:0x%08x\n", &local_A );
    printf("\n");
    printf( "堆,    malloc分配内存,             p1,      addr:0x%08x\n", p1 );
}

}

C程序内存区域分配(5个段作用) - myswirl - 漩涡的窝
注意：
编译时需要-g选项，这样才可以看elf信息；
readelf -a MemoryAssign > 1.txt
可执行程序MemoryAssign的信息导出到文本文件1.txt中，查看1.txt

C程序内存区域分配(5个段作用) - myswirl - 漩涡的窝

问题1：可执行文件大小由什么决定？

可执行文件在存储时分为代码段、数据段和BSS段三个部分。

【例一】
程序1:
int ar[30000];
void main()
{
......
}
程序2:
int ar[300000] =  {1, 2, 3, 4, 5, 6 };
void main()
{
......
}
发现程序2编译之后所得的.exe文件比程序1的要大得多。当下甚为不解，于是手工编译了一下，并使用了/FAs编译选项来查看了一下其各自的.asm，发现在程序1.asm中ar的定义如下：
_BSS SEGMENT
   ?ar@@3PAHA DD 0493e0H DUP (?) ; ar
_BSS ENDS
而在程序2.asm中，ar被定义为：
_DATA SEGMENT
   ?ar@@3PAHA DD 01H    ; ar
            DD 02H
            DD 03H
            ORG $+1199988
_DATA ENDS
区别很明显，一个位于.bss段，而另一个位于.data段，两者的区别在于：全局的未初始化变量存在于.bss段中，具体体现为一个占位符；全局的已初始化变量存于.data段中；而函数内的自动变量都在栈上分配空间。

.bss是不占用.exe文件空间的，其内容由操作系统初始化（清零）；而.data却需要占用，其内容由程序初始化，因此造成了上述情况。

C程序内存区域分配(5个段作用) - myswirl - 漩涡的窝
可以看到可执行文件“2”大小为122K，可执行文件“1”大小为4.8K，用size命令查看二进制可执行文件结构情况。

参考：https://www.cnblogs.com/bigbigtree/archive/2012/11/23/2784137.html

https://www.cnblogs.com/xmphoenix/archive/2011/10/23/2221879.html

https://blog.csdn.net/fdeelt/article/details/5337093

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
后知后觉-ELF

在计算机科学中，是一种用于二进制文件、可执行文件、目标代码、共享库和核心转储的格式文件。是UNIX系统实验室为应用程序二进制接口（ABI）而开发和发布的，也是Linux的主要可执行文件格式。1999年，被86open项目选为x86架构上的类Unix操作系统的二进制文件标准格式，用来取代COFF。因其可扩展性与灵活性，也可应用在其它处理器、计算机系统架构的操作系统上。[1]ELF文件...
复制链接

扫一扫