PE文件格式(一)

简介

PE文件是Windows操作系统下使用的可执行文件格式
PE文件指的是32位的可执行文件,也称作PE32;64位的可执行文件称作PE+或PE32+(注意不是PE64),这是PE文件的一种扩展形式。

PE文件种类
可执行系列:EXE、SCR
驱动程序系列:SYS、VXD
库系列:DLL、OCX、CPL、DRV
对象文件系列:OBJ

除了OBJ之外的文件都是可执行的,有些虽然不能直接在Shell(Explorer.exe)中运行,但是可以使用调试器等来运行。不过,根据PE文件规范,OBJ也是做是PE文件 (虽然它确实是文件本身不能以任何形式执行)。

由于文件运行的所以信息,诸如如何加载到内存,何处开始运行以及运行中需要的DLL和多大的堆栈内存等都以结构体的形式存储在PE头中,故而,学习PE文件格式就是学习PE头中的结构体。

PE文件基本结构
从DOS头到节区头(Section header)是PE头部分,其下的节区合称PE体。

文件中使用偏移(offset),内存中使用虚拟地址(VA)来表示位置。

文件的内容一般可以分为代码(.text)、数据(.data)、资源(.rsrc)节,分别保存。各个节区头定义了各节区在文件或内存中的大小、位置、属性等等。

PE头与各节区的尾部存在NULL填充,因为文件/内存中节区的起始位置应该在各文件/内存最小单位的倍数位置上,空白区域将用NULL填充。
在这里插入图片描述
VA&RVA
VA指的是进程虚拟内存的绝对地址,RVA(相对虚拟地址)指的是从某个基准位置(ImageBase)开始的相对地址。

RVA+ImageBase=VA

PE头内部信息大多是以RVA形式存在,因为重定位的原因。

PE头

DOS头

PE头的最前面添加了一个IMAGE_DOS_HEADER结构体,用来扩展已有的DOS EXE头
在这里插入图片描述
IMAGE_DOS_HEADER结构体的大小为40个字节,结构体中有两个重要成员
e_magic:DOS签名(4D5A–>ASCII值“MZ”)
e_lfanew:指示NT头的偏移(根据不同文件拥有可变值)

我们把记事本拖进WinHEX看一看
在这里插入图片描述
64字节(共4行)的DOS头,第一个成员两个字节是可执行文件的标志信息;最后一个成员4字节是PE头的偏移地址为000000F8H,我们可以根据000000F8H来获取PE头的地址。
可见开头的e_magic:MZ,以及e_lfanew的值为000000F8(因为Intel系列的CPU以逆序存储数据,小端序)

这里说一下为什么MZ没有倒着读
再写PE文件查看器的时候,根据Windows的宏定义

IMAGE_DOS_SIGNATURE = 0x5A4D

所以查看的时候自己倒过来了成了4D 5A,故而我们直接读MZ作为标志就行了

DOS存根

DOS存根在DOS头下方,是个可选项,即使没有,文件也能够运行,它的大小不固定
在这里插入图片描述
可以利用DOSBOX运行这段-u查看汇编指令
在这里插入图片描述

NT头

NT头IMAGE_NT_HEADERS
在这里插入图片描述
这个结构体由3个成员组成,第一个是签名,值为50450000H(“PE”00),另外两个分别是文件头和可选头
在这里插入图片描述
IMAGE_NT_HEADERS结构体大小为F8

文件头

文件头是表现文件大致属性的IMAGE_FILE_HEADER结构体
它有4类重要成员,如果它们设置的不正确,将导致文件无法正常运行
包括PE头在内的24个字节

Machine
每个CPU都有唯一的Machine码,不同的表示可以运行在什么样的CPU上
兼容32位Intel x86 的是14C x64:8664
关于CPU型号的疑惑看这里
在这里插入图片描述
在这里插入图片描述
64位 winhex 打开如下图为 8664,即为 x64程序。
在这里插入图片描述
NumberOfEsctions
NumberOfEsctions指文件中存在的节区数量,也就是节表中的项数。该值一定要大于0,且当定义的节区数与实际不符时,将发生运行错误。

值为 0070,代表有 7 个节表
在这里插入图片描述
SizeOfOptionalHeader
SizeOfOptionalHeader用来指出IMAGE_OPTIONAL_HEADER32结构体的长度。PE装载器需要查看SizeOfOptionalHeader的值,从而识别IMAGE_OPTIONAL_HEADER32结构体的大小。
PE32+格式文件中使用的是IMAGE_OPTIONAL_HEADER64结构体,这两个结构体尺寸是不相同的,所以需要在SizeOfOptionalHeader中指明大小。
借助DOS头中的e_lfanew和文件头中的SizeOfOptionalHeader可以创建一种脱离常规的PE文件(PE Patch)

00f0 ,即为64位程序。
在这里插入图片描述
若为32位,则是00E0
Characteristics
该段用于标识文件的属性,文件是否是可运行的状态,是否为DLL文件等信息。
在这里插入图片描述
在这里插入图片描述
TimeDateStamp
这个成员不影响文件的运行,是用来记录编译器创建文件的时间的。

可选头

IMAGE_OPTIONAL_HEADER32是PE头结构体中最大的
需要关注下列成员,这些值是文件运行必需的,设置错误将导致程序无法正常运行。
文件头往后224个字节(.text之前)
最后一个成员是16个结构体数组,每个宽度8字节
在这里插入图片描述
导入表的位置可以查看可选头的最后一个成员数组的第二个结构体(JIMAGE_OPTIONAL_HEADER32.DataDirectory[1])(都是小端序的)

导出表的位置可以查看可选头的最后一个成员数组的第一个结构体(JIMAGE_OPTIONAL_HEADER32.DataDirectory[0])(都是小端序的)
在这里插入图片描述

这里给一个示例,红色前面是导入表RVA,后面是导入表大小,蓝色表示导出表同理。此处是用WinHex打开的,只是做一个演示,由于WinHex显示的是文件偏移地址,所以上面的数值并不代表RVA

exe文件往往没有导出表

我们查看导入导出表以及后面所讲到的IAT可以使用PEiD等工具,非常方便
在这里插入图片描述

顺便普及一个知识点:
文件偏移地址是指数据在PE文件中的地址,是文件在磁盘上存放时相对于文件开头的偏移。文件偏移地址从pe文件的第一个字节开始计数,起始值为0。用十六进制工具(如WINHEX)打开文件所显示的地址就是文件偏移地址。

IDA Pro虽然是静态反汇编工具,不过出来的是VA。

装载基址(Image Base):PE文件装入内存的 基地址。默认情况下,EXE文件的基址为0x00400000,DLL文件的基址为0x10000000。

虚拟内存地址(VA):PE文件中的指令被装入内存后的地址,OllyDbg动态反汇编产生。

相对虚拟地址(RVA):内存地址相对与映射基址的偏移量。

Magic
为IMAGE_OPTIONAL_HEADER32时,magic码为10B,为IMAGE_OPTIONAL_HEADER64时,magic码为20B

AddressOfEntryPoint
AddressOfEntryPoint持有EP的RVA值。该值指出程序最先执行的代码起始地址。

ImageBase
一般来说,使用开发工具创建好EXE文件后,其ImageBase值为00400000,DLL文件的ImageBase值为10000000(也可以指定其他值)。
执行PE文件时,PE装载器先创建进程,再将文件载入内存,然后把EIP寄存器的值设置为ImageBase+AddressOfEntryPoint

SectionAlignment,FileAlignment
PE文件的Body部分被划分成若干节段,这些节段储存着不同类别的数据。
FileAlignment指定了节区在磁盘文件中的最小单位,而SectionAlignment则指定了节区在内存中的最小单位(SectionAlignment必须大于或者等于FileAlignment)
磁盘文件或者内存的节区带下必定是FileAlignment或SectionAlignment值的整数倍。

SizeOfImage
当PE文件加载到内存时,SizeOfImage指定了PE Image在虚拟内存中所占用的空间大小,一般文件大小与加载到内存中的大小是不同的(节段头中定义了各节装载的位置与占有内存的大小)

SizeOfHeader
SizeOfHeader用来指出整个PE头大小。该值必须是FileAlignment的整数倍。第一节段所在位置与SizeOfHeader距文件开始偏移的量相同。

Subsystem
用来区分系统驱动文件(*.sys)与普通的可执行文件(*.exe,*.dll)
在这里插入图片描述
NumberOfRvaAndSizes
NumberOfRvaAndSizes用来指定DataDirectory( IMAGE_OPTIONAL_HEADER32结构体的最后一个成员)数组的个数。

DataDirectory
DataDirectory是由IMAGE_DATA_DIRECTORY结构体组成的数组,数组的每项都有被定义的值。将Directory想成某个结构体数组即可。重点关注EXPORT/IMPORT/RESOURCE、TLS Direction。特别需要注意的是IMPORT与EXPORT Directory,它们是PE头中非常重要的部分

节区头

节区头中定义了各个节区的属性,PE文件中的code(代码)、data(数据)、resource(资源)等按照属性分类存储在不同节区。把PE文件创建成多个节区结构的好处是,这样可以保证程序的安全性。若把code与data放在一个节区中相互纠缠很容易引发安全问题。

节区头是由IMAGE_SECTION_HEADER结构体组成的数组,每个结构体对应一个节区。
在这里插入图片描述
IMAGE_SECTION_HEADER结构体的重要成员项目
virtualSize 内存中节区所占大小
VirtualAddress 内存中节区起始地址(RVA)
SizcOfRawData 磁盘文件中节区所占大小
PointerToRawData 磁盘文件中节区起始位置
Charateristics 节区属性(bit OR)

Name字段:
Name成员不像C语言中的字符串一样以NULL结束,并且没有“必须使用ASCII值”的限制。PE规范未明确规定节区的Name,所以可以向其中放入任何值,甚至可以填充NULL值。所以节区的Name仅供参考,不能保证其百分之百地被用作某种信息(数据节区的名称也可叫做.code )。

映像( Image):
PE文件加载到内存时,文件不会原封不动地加载,而要根据节区头中定义的节区起始地址、节区大小等加载。因此,磁盘文件中的PE与内存中的PE具有不同形态。故而将装载到内存中的形态称为“映像”。
在这里插入图片描述
我们可以在WINHEX里面看各个节区头数组,每个大小40字节
在这里插入图片描述

RVA to RAW(FOA)

RAW ADRRESS,或者FILE OSSFET ADRRESS,一般称文件偏移

完成从内存地址到文件偏移之间的映射称为RVA to RAW

RVA+ImageBase=VA

计算方法:
1.判断 RVA 是否位于 PE 头,如果是 FOA=RVA,

2.判断 RVA 位于哪个节
RVA >= 节.VirtualAddress
RVA <= 节.VirtualAddress + 当前内存对齐后的大小

3.FOA = RVA - 节.VirtualAddress +节.PointerToRawData

示例题目:
在这里插入图片描述
在这里插入图片描述

IAT(导入地址表)

IAT是一种表格,用来记录程序正在使用哪些库中的函数
注意:导入地址表和导入表是两个东西,导出地址表和导出表也是。

DLL(动态链接库)

  • 不要把库包含到程序中,单独组成DLL文件,需要时调用即可。
  • 内存映射技术使加载后的DLL代码、资源在多个进程中实现共享。
  • 更新库时只要替换相关DLL文件即可,简便易行。

加载DLL的方式:
“显式链接”(Explicit Linking ),程序使用DLL时加载,使用完毕后释放内存;
“隐式链接”( Implicit Linking ),程序开始时即一同加载DLL,程序终止时再释放占用的内存。
IAT提供的机制即与隐式链接有关。

DLL重定位:
DLL文件的ImageBase值一般为10000000。比如某个程序使用a.dll与b.dll时,PE装载器先把a.dll装载到内存的10000000( ImageBase)处,然后尝试把b.dl也装载到该处。但是由于该地址处已经装载了a.dl,所以PE装载器查找其他空白的内存空间( ex:3EO00000 ),然后将b.dll装载进去。这就构成了DLL重定位,它使我们不能对实际地址硬编码
注:实际操作中无法保证DLL一定会被加载到PE头内指定的ImageBase处。但是EXE文件(生成进程的主体)却能准确加载到自身的ImageBase 中,因为它拥有自己的虚拟空间。

IMAGE_IMPORT_DESCRIPTOR

该结构体记录着PE文件要导入的库文件,它在PE体中,但是查找它的位置的信息在PE头中。
执行一个普通程序往往需要导入许多库,导入多少库就存在多少个IMAGE_IMPORT_DESCRIPTOR结构体,这些结构体形成了数组,且最后以NULL结构体结束。
20字节,一个union相当于是一个
在这里插入图片描述
其中比较重要的成员有:
OriginalFirstThunk INT的地址(RVA)
Name 库名称字符串的地址(RVA)
FirstThunk IAT的地址(RVA)

INT是一个包含导入函数信息( Ordinal,Name)的结构体指针数组。

INT与IAT的大小应该相同,都是长整型(4个字节数据类型),以NULL结束

EAT(导出地址表)

EAT可以用来求取相应库中导出函数的起始地址的。它记录了导出符号的地址,名称,与序号 (提示:exe文件中很少有导出表的,大多数dll都有导出表,某些存放资源文件的dll就没有导出表)通过结构体IMAGE_EXPORT_DIRECTORY
在这里插入图片描述

IMAGE_EXPORT_DIRECTORY中的重要成员(地址都是RVA)
在这里插入图片描述
附:从库中获得函数地址的API为GetProcAddress()函数,这个API函数引用EAT来获取指定API的地址。

GetProcAddress()操作原理:
(1)利用AddressOfNames成员转到“函数名称数组”。
(2)“函数名称数组”中存储着字符串地址。通过比较( strcmp)字符串,查找指定的函数名称(此时数组的索引称为name_index )。
(3)利用AddressOfNameOrdinals成员,转到orinal数组。(4)在ordinal数组中通过name_index查找相应ordinal值。
(5)利用AddressOfFunctions成员转到“函数地址数组”(EAT )。
(6)在“函数地址数组”中将刚刚求得的ordinal用作数组索引,获得指定函数的起始地址。

一般导出函数均有相应名称,AddressOfNameOrdinals数组的值以index=ordinal的形式存在。但并不是所有的DLL文件都如此。导出函数中也有一些函数没有名称(仅通过ordinal导出),AddressOfNameOrdinals数组的值为index!=ordinal。所以只有按照上面的顺序才能获得准确的函数地址。

对于没有函数名称的导出函数,可以通过Ordinal查找到它们的地址。从 Ordinal值中减去IMAGE_EXPORT_DIRECTORY.Base成员后得到一个值,使用该值作为“函敖地址数组”的索引。即可查找到相应函数的地址。

小结

PE规范只是一个标准,文件符合PE规范就是PE文件,有一额很有创意不符合常规的PE文件,我们称之为Patched PE,这也是PE文件,且在逆向当中很重要。总之,多学多练很重要,愿与诸君共勉!!

参考资料:
《逆向工程核心原理》
https://www.bilibili.com/video/BV18r4y1K7sa?p=1

  • 8
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值