深入剖析 PE 文件结构：从理论到实践_windows pe结构学习难度-CSDN博客

本文链接：https://blog.csdn.net/m0_57836225/article/details/145537247

在 Windows 操作系统中，PE（Portable Executable）文件是可执行程序、动态链接库（DLL）等的常见文件格式。理解 PE 文件结构，对于软件开发者、逆向工程师等都至关重要。它不仅能帮助我们优化程序性能、实现代码注入等高级操作，还能让我们更深入地理解操作系统加载和运行程序的机制。今天，就让我们一同深入探索 PE 文件结构的奥秘。

一、PE 文件结构概述

PE 文件结构主要由 DOS 头（DOS Header）、DOS 存根（DOS Stub）、PE 头（PE Header）、节表（Section Table）和节（Sections）等部分组成。

DOS 头：这是 PE 文件的起始部分，它包含了一些与 DOS 系统相关的信息，主要作用是让 Windows 系统能够识别这是一个可执行文件。其结构在 Windows 系统中定义如下：

typedef struct _IMAGE_DOS_HEADER { 
    WORD e_magic;     // 魔数，用于标识是否为有效的DOS可执行文件，值为0x5A4D（"MZ"）
    WORD e_cblp;      // 最后一页的字节数
    WORD e_cp;        // 文件的总页数
    WORD e_crlc;      // 重定位项的数量
    WORD e_cparhdr;   // 头部的段落数
    WORD e_minalloc;  // 所需的最小额外段数
    WORD e_maxalloc;  // 所需的最大额外段数
    WORD e_ss;        // 初始的堆栈段寄存器值
    WORD e_sp;        // 初始的堆栈指针值
    WORD e_csum;      // 校验和
    WORD e_ip;        // 初始的指令指针值
    WORD e_cs;        // 初始的代码段寄存器值
    WORD e_lfarlc;    // 重定位表的文件偏移
    WORD e_ovno;      // 覆盖号
    WORD e_res[4];    // 保留字
    WORD e_oemid;     // OEM标识符（与e_oeminfo配合使用）
    WORD e_oeminfo;   // OEM信息
    WORD e_res2[10];  // 保留字
    LONG e_lfanew;    // 指向PE头的偏移
} IMAGE_DOS_HEADER, *PIMAGE_DOS_HEADER;

在实际读取 PE 文件时，我们可以通过以下代码获取 DOS 头信息：

#include <stdio.h>
#include <windows.h>

int main() {
    FILE* peFile = fopen("example.exe", "rb");
    if (peFile == NULL) {
        printf("无法打开文件\n");
        return 1;
    }

    IMAGE_DOS_HEADER dosHeader;
    fread(&dosHeader, sizeof(IMAGE_DOS_HEADER), 1, peFile);

    if (dosHeader.e_magic != 0x5A4D) {
        printf("不是有效的PE文件\n");
        fclose(peFile);
        return 1;
    }

    printf("DOS头魔数: 0x%04X\n", dosHeader.e_magic);
    printf("指向PE头的偏移: 0x%08X\n", dosHeader.e_lfanew);

    fclose(peFile);
    return 0;
}

DOS 存根：紧接在 DOS 头之后，它是一段在 DOS 系统下执行的小程序，在 Windows 系统中通常被忽略。不过，它可以包含一些版权信息等内容。在实际操作中，我们一般不会对其进行过多处理，但了解其存在也是很有必要的。
PE 头：这是 PE 文件结构的核心部分，包含了文件的总体信息，如文件的目标操作系统、文件类型、内存布局等。PE 头又分为标准 PE 头（COFF Header）和可选 PE 头（Optional Header）。
- 标准 PE 头（COFF Header）：定义如下：

typedef struct _IMAGE_FILE_HEADER { 
    WORD Machine;            // 目标机器类型
    WORD NumberOfSections;   // 节的数量
    DWORD TimeDateStamp;     // 文件创建时间戳
    DWORD PointerToSymbolTable; // 符号表的文件偏移（调试信息相关，通常为0）
    DWORD NumberOfSymbols;   // 符号表中的符号数量（调试信息相关，通常为0）
    WORD SizeOfOptionalHeader; // 可选PE头的大小
    WORD Characteristics;    // 文件属性标志
} IMAGE_FILE_HEADER, *PIMAGE_FILE_HEADER;

可选 PE 头（Optional Header）：结构较为复杂，包含了更多与程序执行相关的信息，如入口点地址、代码和数据的大小、内存对齐信息等。

typedef struct _IMAGE_OPTIONAL_HEADER { 
    WORD Magic;              // 魔数，用于标识可选头的格式
    BYTE MajorLinkerVersion; // 链接器主版本号
    BYTE MinorLinkerVersion; // 链接器次版本号
    DWORD SizeOfCode;        // 代码段的大小
    DWORD SizeOfInitializedData; // 已初始化数据段的大小
    DWORD SizeOfUninitializedData; // 未初始化数据段的大小
    DWORD AddressOfEntryPoint; // 程序入口点的RVA（相对虚拟地址）
    DWORD BaseOfCode;        // 代码段的起始RVA
    DWORD BaseOfData;        // 数据段的起始RVA（如果没有单独的数据段，可能为0）
    // 其他众多字段，此处省略部分常见字段...
} IMAGE_OPTIONAL_HEADER32, *PIMAGE_OPTIONAL_HEADER32;

下面的代码展示了如何读取 PE 头信息：

#include <stdio.h>
#include <windows.h>

int main() {
    FILE* peFile = fopen("example.exe", "rb");
    if (peFile == NULL) {
        printf("无法打开文件\n");
        return 1;
    }

    IMAGE_DOS_HEADER dosHeader;
    fread(&dosHeader, sizeof(IMAGE_DOS_HEADER), 1, peFile);
    if (dosHeader.e_magic != 0x5A4D) {
        printf("不是有效的PE文件\n");
        fclose(peFile);
        return 1;
    }

    fseek(peFile, dosHeader.e_lfanew, SEEK_SET);

    DWORD peSignature;
    fread(&peSignature, sizeof(DWORD), 1, peFile);
    if (peSignature != 0x00004550) { // "PE\0\0"
        printf("不是有效的PE文件\n");
        fclose(peFile);
        return 1;
    }

    IMAGE_FILE_HEADER fileHeader;
    fread(&fileHeader, sizeof(IMAGE_FILE_HEADER), 1, peFile);

    IMAGE_OPTIONAL_HEADER32 optionalHeader;
    fread(&optionalHeader, fileHeader.SizeOfOptionalHeader, 1, peFile);

    printf("目标机器类型: 0x%04X\n", fileHeader.Machine);
    printf("节的数量: %d\n", fileHeader.NumberOfSections);
    printf("程序入口点RVA: 0x%08X\n", optionalHeader.AddressOfEntryPoint);

    fclose(peFile);
    return 0;
}

节表：节表描述了 PE 文件中各个节的属性，如节的名称、大小、在文件中的偏移、在内存中的位置等。每个节在节表中都有对应的表项，节表的结构定义如下：

typedef struct _IMAGE_SECTION_HEADER { 
    BYTE Name[8];           // 节名（以NULL结尾的字符串）
    union {
        DWORD PhysicalAddress;
        DWORD VirtualSize;
    } Misc;                 // 节的实际大小（在内存中可能会补齐）
    DWORD VirtualAddress;    // 节的起始RVA
    DWORD SizeOfRawData;     // 节在文件中的大小（对齐后）
    DWORD PointerToRawData;  // 节在文件中的偏移
    DWORD PointerToRelocations; // 重定位表的文件偏移（通常为0）
    DWORD PointerToLinenumbers; // 行号表的文件偏移（调试信息相关，通常为0）
    WORD NumberOfRelocations; // 重定位项的数量（通常为0）
    WORD NumberOfLinenumbers; // 行号项的数量（调试信息相关，通常为0）
    DWORD Characteristics;  // 节的属性标志
} IMAGE_SECTION_HEADER, *PIMAGE_SECTION_HEADER;

通过以下代码，我们可以读取节表信息：

#include <stdio.h>
#include <windows.h>

int main() {
    FILE* peFile = fopen("example.exe", "rb");
    if (peFile == NULL) {
        printf("无法打开文件\n");
        return 1;
    }

    IMAGE_DOS_HEADER dosHeader;
    fread(&dosHeader, sizeof(IMAGE_DOS_HEADER), 1, peFile);
    if (dosHeader.e_magic != 0x5A4D) {
        printf("不是有效的PE文件\n");
        fclose(peFile);
        return 1;
    }

    fseek(peFile, dosHeader.e_lfanew, SEEK_SET);

    DWORD peSignature;
    fread(&peSignature, sizeof(DWORD), 1, peFile);
    if (peSignature != 0x00004550) {
        printf("不是有效的PE文件\n");
        fclose(peFile);
        return 1;
    }

    IMAGE_FILE_HEADER fileHeader;
    fread(&fileHeader, sizeof(IMAGE_FILE_HEADER), 1, peFile);

    IMAGE_OPTIONAL_HEADER32 optionalHeader;
    fread(&optionalHeader, fileHeader.SizeOfOptionalHeader, 1, peFile);

    IMAGE_SECTION_HEADER* sectionHeaders = (IMAGE_SECTION_HEADER*)malloc(fileHeader.NumberOfSections * sizeof(IMAGE_SECTION_HEADER));
    fread(sectionHeaders, sizeof(IMAGE_SECTION_HEADER), fileHeader.NumberOfSections, peFile);

    for (int i = 0; i < fileHeader.NumberOfSections; i++) {
        printf("节名: %.8s\n", sectionHeaders[i].Name);
        printf("节的实际大小: 0x%08X\n", sectionHeaders[i].Misc.VirtualSize);
        printf("节的起始RVA: 0x%08X\n", sectionHeaders[i].VirtualAddress);
        printf("节在文件中的大小: 0x%08X\n", sectionHeaders[i].SizeOfRawData);
        printf("节在文件中的偏移: 0x%08X\n", sectionHeaders[i].PointerToRawData);
        printf("-------------------\n");
    }

    free(sectionHeaders);
    fclose(peFile);
    return 0;
}

节：节是 PE 文件中真正存储代码、数据等内容的地方。常见的节有代码节（.text）、数据节（.data）、只读数据节（.rdata）等。每个节都有其特定的用途，比如代码节存储可执行代码，数据节存储已初始化的全局变量和静态变量等。节的内容在文件中按照节表的描述进行存储和加载到内存中。

二、PE 文件的加载过程

当 Windows 系统加载一个 PE 文件时，大致会经历以下步骤：

读取 DOS 头和 PE 头：系统首先读取文件的 DOS 头，检查魔数以确认这是一个有效的可执行文件。然后根据 DOS 头中的e_lfanew字段找到 PE 头，并读取 PE 头信息，获取文件的基本属性、节表位置等关键信息。
分配内存：根据 PE 头中的信息，系统为程序分配内存空间。包括代码段、数据段等各个节的内存空间，并且按照节表中指定的内存对齐方式进行对齐。
加载节数据：系统根据节表中每个节的文件偏移和大小，将节数据从文件中读取到对应的内存位置。对于可执行代码节，系统会将其标记为可执行属性。
重定位：如果程序中存在相对地址引用（如访问全局变量、调用函数等），系统会根据重定位表对这些地址进行修正，确保程序在内存中能够正确运行。
执行入口点：最后，系统跳转到 PE 头中指定的程序入口点地址，开始执行程序。

三、PE 文件结构的应用场景

软件逆向工程：在逆向工程中，分析 PE 文件结构是理解程序功能、破解软件保护机制的基础。通过解析 PE 头、节表和节内容，可以获取程序的代码逻辑、关键函数地址、数据存储方式等重要信息，从而实现软件的逆向分析和修改。
代码注入：利用对 PE 文件结构的理解，可以实现代码注入技术。例如，将一段自定义的代码注入到目标程序的某个节中，或者修改程序的入口点，使其在运行时执行我们注入的代码，从而实现一些特殊功能，如软件破解、功能扩展等。
程序优化：了解 PE 文件结构有助于优化程序的性能。通过合理安排节的布局、调整内存对齐方式等，可以减少程序在加载和运行时的内存开销，提高程序的执行效率。

PE 文件结构是 Windows 系统下可执行文件的核心组成部分。深入理解它，无论是对于开发高效稳定的应用程序，还是进行软件逆向分析等高级操作，都具有重要意义。希望通过本文的介绍和代码示例，能让大家对 PE 文件结构有更深入的认识和理解，在编程的道路上更进一步。如果想要深入学习，推荐阅读《Windows PE 权威指南》等相关书籍，进行更系统的学习和研究。