PE文件详解：从头到尾理解Windows可执行文件结构-CSDN博客

本文链接：https://blog.csdn.net/AlienEowynWan/article/details/115463807

简介

PE文件是Windows操作系统下使用的可执行文件格式
PE文件指的是32位的可执行文件，也称作PE32；64位的可执行文件称作PE+或PE32+（注意不是PE64），这是PE文件的一种扩展形式。

PE文件种类
可执行系列：EXE、SCR
驱动程序系列：SYS、VXD
库系列：DLL、OCX、CPL、DRV
对象文件系列：OBJ

除了OBJ之外的文件都是可执行的，有些虽然不能直接在Shell（Explorer.exe)中运行，但是可以使用调试器等来运行。不过，根据PE文件规范，OBJ也是做是PE文件（虽然它确实是文件本身不能以任何形式执行）。

由于文件运行的所以信息，诸如如何加载到内存，何处开始运行以及运行中需要的DLL和多大的堆栈内存等都以结构体的形式存储在PE头中，故而，学习PE文件格式就是学习PE头中的结构体。

PE文件基本结构
从DOS头到节区头（Section header）是PE头部分，其下的节区合称PE体。

文件中使用偏移（offset），内存中使用虚拟地址（VA）来表示位置。

文件的内容一般可以分为代码（.text）、数据（.data）、资源（.rsrc）节，分别保存。各个节区头定义了各节区在文件或内存中的大小、位置、属性等等。

PE头与各节区的尾部存在NULL填充，因为文件/内存中节区的起始位置应该在各文件/内存最小单位的倍数位置上，空白区域将用NULL填充。
在这里插入图片描述
VA&RVA
VA指的是进程虚拟内存的绝对地址，RVA（相对虚拟地址）指的是从某个基准位置（ImageBase）开始的相对地址。

RVA+ImageBase=VA

PE头内部信息大多是以RVA形式存在，因为重定位的原因。

PE头

DOS头

PE头的最前面添加了一个IMAGE_DOS_HEADER结构体，用来扩展已有的DOS EXE头
在这里插入图片描述
IMAGE_DOS_HEADER结构体的大小为40个字节，结构体中有两个重要成员
e_magic:DOS签名（4D5A–>ASCII值“MZ”）
e_lfanew:指示NT头的偏移（根据不同文件拥有可变值）

我们把记事本拖进WinHEX看一看
在这里插入图片描述
64字节（共4行）的DOS头，第一个成员两个字节是可执行文件的标志信息；最后一个成员4字节是PE头的偏移地址为000000F8H，我们可以根据000000F8H来获取PE头的地址。
可见开头的e_magic：MZ，以及e_lfanew的值为000000F8（因为Intel系列的CPU以逆序存储数据，小端序）

这里说一下为什么MZ没有倒着读
再写PE文件查看器的时候，根据Windows的宏定义

IMAGE_DOS_SIGNATURE = 0x5A4D

所以查看的时候自己倒过来了成了4D 5A，故而我们直接读MZ作为标志就行了

DOS存根

DOS存根在DOS头下方，是个可选项，即使没有，文件也能够运行，它的大小不固定
在这里插入图片描述
可以利用DOSBOX运行这段-u查看汇编指令

NT头

NT头IMAGE_NT_HEADERS
在这里插入图片描述
这个结构体由3个成员组成，第一个是签名，值为50450000H（“PE”00），另外两个分别是文件头和可选头

IMAGE_NT_HEADERS结构体大小为F8

文件头

文件头是表现文件大致属性的IMAGE_FILE_HEADER结构体
它有4类重要成员，如果它们设置的不正确，将导致文件无法正常运行
包括PE头在内的24个字节

Machine
每个CPU都有唯一的Machine码，不同的表示可以运行在什么样的CPU上
兼容32位Intel x86 的是14C x64:8664
关于CPU型号的疑惑看这里
在这里插入图片描述

64位 winhex 打开如下图为 8664，即为 x64程序。

NumberOfEsctions
NumberOfEsctions指文件中存在的节区数量，也就是节表中的项数。该值一定要大于0，且当定义的节区数与实际不符时，将发生运行错误。

值为 0070，代表有 7 个节表
在这里插入图片描述
SizeOfOptionalHeader
SizeOfOptionalHeader用来指出IMAGE_OPTIONAL_HEADER32结构体的长度。PE装载器需要查看SizeOfOptionalHeader的值，从而识别IMAGE_OPTIONAL_HEADER32结构体的大小。
PE32+格式文件中使用的是IMAGE_OPTIONAL_HEADER64结构体，这两个结构体尺寸是不相同的，所以需要在SizeOfOptionalHeader中指明大小。
借助DOS头中的e_lfanew和文件头中的SizeOfOptionalHeader可以创建一种脱离常规的PE文件（PE Patch）

00f0 ,即为64位程序。
在这里插入图片描述
若为32位，则是00E0
Characteristics
该段用于标识文件的属性，文件是否是可运行的状态，是否为DLL文件等信息。

TimeDateStamp
这个成员不影响文件的运行，是用来记录编译器创建文件的时间的。

可选头

IMAGE_OPTIONAL_HEADER32是PE头结构体中最大的
需要关注下列成员，这些值是文件运行必需的，设置错误将导致程序无法正常运行。
文件头往后224个字节（.text之前）
最后一个成员是16个结构体数组，每个宽度8字节
在这里插入图片描述
导入表的位置可以查看可选头的最后一个成员数组的第二个结构体（JIMAGE_OPTIONAL_HEADER32.DataDirectory[1]）（都是小端序的）

导出表的位置可以查看可选头的最后一个成员数组的第一个结构体（JIMAGE_OPTIONAL_HEADER32.DataDirectory[0]）（都是小端序的）
在这里插入图片描述

这里给一个示例，红色前面是导入表RVA，后面是导入表大小，蓝色表示导出表同理。此处是用WinHex打开的，只是做一个演示，由于WinHex显示的是文件偏移地址，所以上面的数值并不代表RVA

exe文件往往没有导出表

我们查看导入导出表以及后面所讲到的IAT可以使用PEiD等工具，非常方便
在这里插入图片描述

顺便普及一个知识点：
文件偏移地址是指数据在PE文件中的地址，是文件在磁盘上存放时相对于文件开头的偏移。文件偏移地址从pe文件的第一个字节开始计数，起始值为0。用十六进制工具（如WINHEX）打开文件所显示的地址就是文件偏移地址。

IDA Pro虽然是静态反汇编工具，不过出来的是VA。

装载基址（Image Base）：PE文件装入内存的基地址。默认情况下，EXE文件的基址为0x00400000，DLL文件的基址为0x10000000。

虚拟内存地址（VA）：PE文件中的指令被装入内存后的地址，OllyDbg动态反汇编产生。

相对虚拟地址（RVA）：内存地址相对与映射基址的偏移量。

Magic
为IMAGE_OPTIONAL_HEADER32时，magic码为10B，为IMAGE_OPTIONAL_HEADER64时，magic码为20B

AddressOfEntryPoint
AddressOfEntryPoint持有EP的RVA值。该值指出程序最先执行的代码起始地址。

ImageBase
一般来说，使用开发工具创建好EXE文件后，其ImageBase值为00400000，DLL文件的ImageBase值为10000000（也可以指定其他值）。
执行PE文件时，PE装载器先创建进程，再将文件载入内存，然后把EIP寄存器的值设置为ImageBase+AddressOfEntryPoint

SectionAlignment，FileAlignment
PE文件的Body部分被划分成若干节段，这些节段储存着不同类别的数据。
FileAlignment指定了节区在磁盘文件中的最小单位，而SectionAlignment则指定了节区在内存中的最小单位（SectionAlignment必须大于或者等于FileAlignment）
磁盘文件或者内存的节区带下必定是FileAlignment或SectionAlignment值的整数倍。

SizeOfImage
当PE文件加载到内存时，SizeOfImage指定了PE Image在虚拟内存中所占用的空间大小，一般文件大小与加载到内存中的大小是不同的（节段头中定义了各节装载的位置与占有内存的大小）

SizeOfHeader
SizeOfHeader用来指出整个PE头大小。该值必须是FileAlignment的整数倍。第一节段所在位置与SizeOfHeader距文件开始偏移的量相同。

Subsystem
用来区分系统驱动文件（*.sys）与普通的可执行文件(*.exe,*.dll)
在这里插入图片描述
NumberOfRvaAndSizes
NumberOfRvaAndSizes用来指定DataDirectory( IMAGE_OPTIONAL_HEADER32结构体的最后一个成员）数组的个数。

DataDirectory
DataDirectory是由IMAGE_DATA_DIRECTORY结构体组成的数组，数组的每项都有被定义的值。将Directory想成某个结构体数组即可。重点关注EXPORT/IMPORT/RESOURCE、TLS Direction。特别需要注意的是IMPORT与EXPORT Directory，它们是PE头中非常重要的部分

节区头

节区头中定义了各个节区的属性，PE文件中的code(代码)、data(数据)、resource(资源）等按照属性分类存储在不同节区。把PE文件创建成多个节区结构的好处是，这样可以保证程序的安全性。若把code与data放在一个节区中相互纠缠很容易引发安全问题。

节区头是由IMAGE_SECTION_HEADER结构体组成的数组，每个结构体对应一个节区。
在这里插入图片描述
IMAGE_SECTION_HEADER结构体的重要成员项目
virtualSize 内存中节区所占大小
VirtualAddress 内存中节区起始地址(RVA)
SizcOfRawData 磁盘文件中节区所占大小
PointerToRawData 磁盘文件中节区起始位置
Charateristics 节区属性(bit OR)

Name字段：
Name成员不像C语言中的字符串一样以NULL结束，并且没有“必须使用ASCII值”的限制。PE规范未明确规定节区的Name，所以可以向其中放入任何值，甚至可以填充NULL值。所以节区的Name仅供参考，不能保证其百分之百地被用作某种信息（数据节区的名称也可叫做.code )。

映像( Image）：
PE文件加载到内存时，文件不会原封不动地加载，而要根据节区头中定义的节区起始地址、节区大小等加载。因此，磁盘文件中的PE与内存中的PE具有不同形态。故而将装载到内存中的形态称为“映像”。
在这里插入图片描述
我们可以在WINHEX里面看各个节区头数组，每个大小40字节

RVA to RAW（FOA)

RAW ADRRESS，或者FILE OSSFET ADRRESS，一般称文件偏移

完成从内存地址到文件偏移之间的映射称为RVA to RAW

RVA+ImageBase=VA

计算方法：
1.判断 RVA 是否位于 PE 头，如果是 FOA=RVA,

2.判断 RVA 位于哪个节
RVA >= 节.VirtualAddress
RVA <= 节.VirtualAddress + 当前内存对齐后的大小

3.FOA = RVA - 节.VirtualAddress +节.PointerToRawData

示例题目：
在这里插入图片描述

IAT（导入地址表）

IAT是一种表格，用来记录程序正在使用哪些库中的函数
注意：导入地址表和导入表是两个东西，导出地址表和导出表也是。

DLL（动态链接库）

不要把库包含到程序中，单独组成DLL文件，需要时调用即可。
内存映射技术使加载后的DLL代码、资源在多个进程中实现共享。
更新库时只要替换相关DLL文件即可，简便易行。

加载DLL的方式:
“显式链接”(Explicit Linking )，程序使用DLL时加载，使用完毕后释放内存;
“隐式链接”( Implicit Linking )，程序开始时即一同加载DLL，程序终止时再释放占用的内存。
IAT提供的机制即与隐式链接有关。

DLL重定位：
DLL文件的ImageBase值一般为10000000。比如某个程序使用a.dll与b.dll时，PE装载器先把a.dll装载到内存的10000000( ImageBase)处，然后尝试把b.dl也装载到该处。但是由于该地址处已经装载了a.dl，所以PE装载器查找其他空白的内存空间（ ex:3EO00000 )，然后将b.dll装载进去。这就构成了DLL重定位，它使我们不能对实际地址硬编码
注：实际操作中无法保证DLL一定会被加载到PE头内指定的ImageBase处。但是EXE文件（生成进程的主体）却能准确加载到自身的ImageBase 中，因为它拥有自己的虚拟空间。

IMAGE_IMPORT_DESCRIPTOR

该结构体记录着PE文件要导入的库文件，它在PE体中，但是查找它的位置的信息在PE头中。
执行一个普通程序往往需要导入许多库，导入多少库就存在多少个IMAGE_IMPORT_DESCRIPTOR结构体，这些结构体形成了数组，且最后以NULL结构体结束。
20字节，一个union相当于是一个
在这里插入图片描述
其中比较重要的成员有：
OriginalFirstThunk INT的地址(RVA)
Name 库名称字符串的地址（RVA)
FirstThunk IAT的地址（RVA)

INT是一个包含导入函数信息（ Ordinal，Name)的结构体指针数组。

INT与IAT的大小应该相同，都是长整型（4个字节数据类型），以NULL结束

EAT（导出地址表）

EAT可以用来求取相应库中导出函数的起始地址的。它记录了导出符号的地址,名称,与序号 (提示:exe文件中很少有导出表的，大多数dll都有导出表，某些存放资源文件的dll就没有导出表)通过结构体IMAGE_EXPORT_DIRECTORY
在这里插入图片描述

IMAGE_EXPORT_DIRECTORY中的重要成员（地址都是RVA）
在这里插入图片描述
附：从库中获得函数地址的API为GetProcAddress()函数，这个API函数引用EAT来获取指定API的地址。

GetProcAddress()操作原理：
(1)利用AddressOfNames成员转到“函数名称数组”。
(2)“函数名称数组”中存储着字符串地址。通过比较（ strcmp）字符串，查找指定的函数名称（此时数组的索引称为name_index )。
(3)利用AddressOfNameOrdinals成员，转到orinal数组。(4)在ordinal数组中通过name_index查找相应ordinal值。
(5)利用AddressOfFunctions成员转到“函数地址数组”(EAT )。
(6)在“函数地址数组”中将刚刚求得的ordinal用作数组索引，获得指定函数的起始地址。

一般导出函数均有相应名称，AddressOfNameOrdinals数组的值以index=ordinal的形式存在。但并不是所有的DLL文件都如此。导出函数中也有一些函数没有名称（仅通过ordinal导出)，AddressOfNameOrdinals数组的值为index!=ordinal。所以只有按照上面的顺序才能获得准确的函数地址。

对于没有函数名称的导出函数，可以通过Ordinal查找到它们的地址。从 Ordinal值中减去IMAGE_EXPORT_DIRECTORY.Base成员后得到一个值，使用该值作为“函敖地址数组”的索引。即可查找到相应函数的地址。