VC深入解析PE文件导出与导入表

泓三宝

于 2024-11-26 16:25:30 发布

阅读量1k

点赞数 20

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/weixin_34779181/article/details/144076304

本文还有配套的精品资源，点击获取

简介：本文详细探讨了在Windows环境下，如何使用Visual C++对可执行文件中的导出表和导入表进行解析。导出表是PE文件向外部提供函数和资源的清单，通过DUMPBIN工具和编程接口可以查看和操作导出表。导入表记录了文件依赖的其他模块和函数，可通过Dependency Walker工具和编程接口进行分析。深入理解这两个表对调试程序、分析依赖关系和软件开发至关重要，是逆向工程和故障排查的重要技能。

1. PE文件格式概述

PE（Portable Executable）文件格式是Windows操作系统中用于可执行文件、对象代码、DLL等的文件格式。了解PE文件格式是分析和理解Windows应用程序的基础。PE格式的基本结构包括DOS头、NT头、节表和数据节，它们共同定义了程序的执行入口、程序中各个部分的内存布局、以及文件与内存映射等关键信息。

PE文件的分析对于逆向工程、病毒检测、安全加固等都有重要意义。在学习PE文件的过程中，我们会接触到一系列的概念，如导入表、导出表、资源段等，它们各自承担着不同的功能角色，是程序运行必不可少的组成部分。

本章将从宏观角度出发，介绍PE文件格式的基础知识，为进一步深入探讨PE文件内部结构打下坚实的基础。我们将通过图表和示例代码，展示PE文件的典型布局，并解析PE头中的关键字段，帮助读者建立对PE文件格式的直观理解。

2. 导出表的作用及查看方法

2.1 导出表的基本概念与结构

2.1.1 导出表的定义和功能

导出表是PE（Portable Executable）文件格式中一个关键的组成部分，它记录了程序中可供其他程序或模块调用的函数或变量信息。通过导出表，一个程序可以将其特定的功能或服务以接口的形式提供给外部，从而实现模块化编程和代码复用。在Windows操作系统下，这种机制被广泛应用于DLL（Dynamic Link Library）文件中，允许不同的程序共享同一份代码库，有效地节约内存并减少重复代码的编写。

2.1.2 导出表的内部结构分析

导出表的内部结构设计允许系统在运行时动态解析出需要执行的函数地址。它通常包含以下几个主要字段：

Export Flags（导出标志）：标识导出项的类型和其他属性。
Time/Date Stamp（时间/日期戳）：记录导出表的创建时间。
Major Version / Minor Version（主版本号 / 次版本号）：标识DLL的版本信息。
Name（名称）：指向DLL名称字符串的指针。
Base（基址）：导出函数列表的起始地址，这是从0开始的索引，实际内存地址为 基址 + 虚拟地址 - 基址虚拟地址 。
Number of Functions（函数数量）：导出函数的总数。
Number of Names（名称数量）：拥有名称的导出项数量，可以少于函数数量，多出来的函数可以通过序号调用。
Address of Functions（函数地址数组）：导出函数地址的数组，用于确定函数的相对位置。
Address of Names（名称地址数组）：导出函数名称字符串数组，每个名称对应一个函数。
Address of Name Ordinals（序号数组）：导出函数的序号数组，可以快速通过序号索引到对应的函数地址。

以上字段在PE文件中的偏移和大小由可选头的DataDirectory中的导出表条目给出。

2.2 查看导出表的方法

2.2.1 使用工具软件查看导出表

要查看PE文件的导出表，可以使用一些现成的工具软件，如Microsoft的dumpbin工具或者开源的PEview。这些工具可以直接读取PE文件结构并提供友好的输出格式。

以下是使用dumpbin工具查看导出表的一个简单示例：

dumpbin.exe /EXPORTS C:\path\to\example.dll

执行该命令后，dumpbin会输出包括导出函数名称、序号以及地址等信息在内的导出表详情。这些信息对于理解和操作DLL文件是至关重要的。

2.2.2 手动解析导出表信息

虽然工具软件非常方便，但在某些情况下，可能需要我们手动解析PE文件的导出表，例如，当现有的工具无法满足特定需求时。手动解析导出表涉及到对PE文件格式的深入了解，以及对二进制数据的解析操作。

下面是一个简单的示例，展示如何使用C语言和标准文件I/O函数来手动读取和解析PE文件的导出表：

#include <stdio.h>
#include <stdlib.h>

#pragma pack(push, 1) // 确保结构体以1字节对齐，因为PE文件没有填充
typedef struct {
    DWORD Characteristics;
    DWORD TimeDateStamp;
    WORD  MajorVersion;
    WORD  MinorVersion;
    DWORD Name;
    DWORD Base;
    DWORD NumberOfFunctions;
    DWORD NumberOfNames;
    DWORD AddressOfFunctions;
    DWORD AddressOfNames;
    DWORD AddressOfNameOrdinals;
} IMAGE_EXPORT_DIRECTORY;
#pragma pack(pop)

int main() {
    FILE *fp = fopen("example.dll", "rb");
    if (!fp) {
        perror("Cannot open file");
        return -1;
    }
    // 跳转到IMAGE_EXPORT_DIRECTORY的位置（假设已知DOS头和PE头的位置）
    fseek(fp, dos_header->e_lfanew + pe_header->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_EXPORT].VirtualAddress, SEEK_SET);

    IMAGE_EXPORT_DIRECTORY expDir;
    fread(&expDir, sizeof(IMAGE_EXPORT_DIRECTORY), 1, fp);

    // 输出导出表内容
    printf("Base: 0x%X\n", expDir.Base);
    printf("Number of Functions: %d\n", expDir.NumberOfFunctions);
    printf("Number of Names: %d\n", expDir.NumberOfNames);
    printf("Address of Functions: 0x%X\n", expDir.AddressOfFunctions);
    printf("Address of Names: 0x%X\n", expDir.AddressOfNames);
    printf("Address of Name Ordinals: 0x%X\n", expDir.AddressOfNameOrdinals);

    fclose(fp);
    return 0;
}

这段代码首先定义了一个结构体来表示导出表的内存布局。接着通过文件I/O操作读取PE文件中的导出表数据，并打印其基本的组成信息。

手动解析PE文件导出表是一个复杂且细致的工作，它要求开发者具备深入了解PE文件格式以及对C/C++的文件操作和内存管理有充分的掌握。但是，对于需要精确控制解析过程的场景，这种方法是不可或缺的。

2.2.3 手动解析导出表的示例

本小节将逐步解析一个实际的导出表案例。通过一个具体的PE文件，我们将深入观察导出表的细节，并利用上述的方法进行手动解析。这将帮助我们更好地理解导出表的结构和组成。

首先，让我们以一个简单的例子开始，假设我们有一个名为 example.dll 的文件，该文件包含导出函数 ExampleFunction 。我们将使用前面提到的C代码手动提取其导出表信息。

打开PE文件： 我们将使用C语言的 fopen 函数打开PE文件进行二进制读取。
定位导出表： 接着，我们需要定位到导出表的位置。这通常需要先读取DOS头和PE头，然后根据PE头中的数据目录来找到导出表的位置。
读取导出表： 通过计算出的偏移量，我们将使用 fread 函数从文件中读取导出表的内容到我们的结构体变量中。
解析导出函数地址和名称： 现在我们可以根据导出表中的 AddressOfFunctions 、 AddressOfNames 、 AddressOfNameOrdinals 来解析具体的导出函数的地址和名称。

在手动解析的过程中，理解每个字段的含义和结构体的对齐方式是至关重要的。这一步骤可以加深我们对PE文件格式和内部结构的认识。

2.2.4 总结

导出表是PE文件中用于提供程序间接口的关键部分，它使我们能够理解如何将代码模块化和复用。在本节中，我们了解了导出表的基本概念与结构，学习了如何使用工具软件和手动解析的方法来查看导出表，这为我们后续深入理解和操作PE文件打下了坚实的基础。

导出表的结构设计为程序间的动态链接提供了可能，它通过地址和名称数组使得函数可以被外部访问。无论是在开发中直接使用工具查看导出表，还是在需要对PE文件进行更细致的控制时手动解析导出表，了解其基本原理和结构都是至关重要的。

接下来，我们将继续探讨导出表的编程访问方法，深入了解如何在编程中有效地访问和利用导出表的信息。

3. 导出表编程访问方法

3.1 编程访问导出表的原理

3.1.1 导出表数据的内存表示

PE文件中的导出表是包含在数据目录项中的一个数据结构，它位于可选头的后面。导出表数据的内存表示形式允许程序查询其他模块或动态链接库(DLL)中可供导入的函数和变量的地址。在内存中，导出表的结构是由一系列的导出项组成，每个导出项都包含函数名、序号以及函数的内存地址。

在32位Windows系统中，每个导出项通常占用4字节的内存地址。导出项的数据结构通常如下定义：

typedef struct _IMAGE_EXPORT_DIRECTORY {
    DWORD Characteristics;
    DWORD TimeDateStamp;
    WORD  MajorVersion;
    WORD  MinorVersion;
    DWORD Name;
    DWORD Base;
    DWORD NumberOfFunctions;
    DWORD NumberOfNames;
    DWORD AddressOfFunctions;     // 函数地址数组的RVA
    DWORD AddressOfNames;         // 函数名数组的RVA
    DWORD AddressOfNameOrdinals;  // 函数序号数组的RVA
} IMAGE_EXPORT_DIRECTORY, *PIMAGE_EXPORT_DIRECTORY;

在分析PE文件时，通常会先找到可选头中的DataDirectory数组中的导出表项，然后读取 IMAGE_EXPORT_DIRECTORY 结构体，这样就能获得指向导出函数地址数组、函数名数组和函数序号数组的指针。

3.1.2 导出表的内存地址解析

解析导出表的内存地址需要几个步骤。首先，需要在内存中定位到PE文件的可选头，并找到数据目录项中的导出表项。接下来，需要读取 IMAGE_EXPORT_DIRECTORY 结构体中的 AddressOfFunctions 、 AddressOfNames 和 AddressOfNameOrdinals 三个成员，分别代表了函数地址数组、函数名数组和函数序号数组的RVA（相对虚拟地址）。

这三部分数据是导出表解析的核心，通过它们可以将函数名和序号与具体的内存地址对应起来。例如，通过 AddressOfNames 可以遍历函数名，而 AddressOfNameOrdinals 则提供一个映射到相应函数地址的序号。具体步骤包括：

加载PE文件到内存。
定位到可选头和数据目录项。
读取 IMAGE_EXPORT_DIRECTORY 结构体。
通过 AddressOfFunctions 获取函数地址数组。
通过 AddressOfNames 和 AddressOfNameOrdinals 解析函数名到地址的映射关系。

3.2 导出表的编程实践

3.2.1 在VC中编写访问导出表的代码

在Visual C++中，可以使用Windows API或者内嵌汇编语言直接操作PE文件的内存结构。以下是一个简单的示例代码，演示如何读取一个DLL文件中的导出函数名和它们的地址。

#include <windows.h>
#include <stdio.h>

BOOL GetExportedFunctions(HMODULE hModule, char* dllName) {
    PIMAGE_DOS_HEADER pDosHeader = (PIMAGE_DOS_HEADER)hModule;
    PIMAGE_NT_HEADERS pNtHeaders = (PIMAGE_NT_HEADERS)((DWORD)pDosHeader + pDosHeader->e_lfanew);
    PIMAGE_OPTIONAL_HEADER pOptHeader = &(pNtHeaders->OptionalHeader);
    PIMAGE_EXPORT_DIRECTORY pExportDir = (PIMAGE_EXPORT_DIRECTORY)((DWORD)pDosHeader + pOptHeader->DataDirectory[IMAGE_DIRECTORY_ENTRY_EXPORT].VirtualAddress);

    DWORD* pAddressOfFunctions = (DWORD*)((DWORD)pDosHeader + pExportDir->AddressOfFunctions);
    DWORD* pAddressOfNames = (DWORD*)((DWORD)pDosHeader + pExportDir->AddressOfNames);
    WORD* pAddressOfNameOrdinals = (WORD*)((DWORD)pDosHeader + pExportDir->AddressOfNameOrdinals);

    for (DWORD i = 0; i < pExportDir->NumberOfNames; i++) {
        DWORD index = pAddressOfNameOrdinals[i];
        char* functionName = (char*)((DWORD)pDosHeader + pAddressOfNames[i]);
        DWORD functionVA = pAddressOfFunctions[index];

        printf("Exported Function %d: %s at address 0x%08X\n", i, functionName, functionVA);
    }

    return TRUE;
}

int main() {
    HMODULE hModule = LoadLibrary("user32.dll");
    if (hModule) {
        GetExportedFunctions(hModule, "user32.dll");
        FreeLibrary(hModule);
    } else {
        printf("Failed to load user32.dll\n");
    }

    return 0;
}

3.2.2 实例解析导出表数据获取过程

在上面的代码示例中，首先通过调用 LoadLibrary 函数加载了DLL到内存中。然后获取了DLL的DOS头部、NT头部和可选头，从而能够访问数据目录项。通过找到数据目录项中的导出表项，得到了 IMAGE_EXPORT_DIRECTORY 结构体的位置。

接下来，读取了 AddressOfFunctions 、 AddressOfNames 和 AddressOfNameOrdinals 三个数组。这三个数组是解析导出表的核心。在for循环中，通过遍历函数名数组 AddressOfNames ，根据 AddressOfNameOrdinals 提供的序号索引到 AddressOfFunctions 数组，从而得到了每个导出函数的内存地址。

此代码通过标准的Windows API来访问和解析PE文件导出表。它打印出每个函数的序号、名称和地址。这些信息可以被程序进一步用于动态调用函数，或者检查DLL提供了哪些接口。

这种方法不仅能够帮助开发者理解DLL如何组织其公开接口，也能够用在编程中动态处理各种API调用的情况，特别是在需要兼容不同版本的Windows系统或进行逆向工程时尤为重要。

flowchart TD
    A[开始] --> B[加载DLL到内存]
    B --> C[获取PE头信息]
    C --> D[定位导出表项]
    D --> E[解析IMAGE_EXPORT_DIRECTORY结构体]
    E --> F[遍历AddressOfFunctions]
    F --> G[遍历AddressOfNames和AddressOfNameOrdinals]
    G --> H[获取导出函数信息]
    H --> I[打印导出函数名称和地址]
    I --> J[结束]

在代码逻辑中，每个步骤都必须仔细执行，确保正确处理内存中的数据。任何错误都可能导致程序崩溃或返回不准确的数据。因此，在访问内存数据时，使用 try-except 异常处理结构或 if 语句进行有效性检查是非常重要的，以确保代码的鲁棒性和稳定性。

4. 导入表的作用及查看方法

导入表是PE文件结构中的关键部分，它记录了一个可执行文件在运行时需要从其他模块或DLL中调用的函数。本章将深入探讨导入表的作用，并详细说明如何查看导入表，包括使用工具软件和手动解析导入表信息。

4.1 导入表的基本概念与结构

4.1.1 导入表的定义和功能

导入表（Import Table）在PE文件格式中担当着接口角色，它包含了一系列的指向外部函数和变量的引用。这些外部资源可以位于其他DLL文件或不同的可执行文件中。导入表的主要功能是让运行中的程序能够在需要时动态地加载和链接到其他模块上，实现模块间的通信和协作。

4.1.2 导入表的内部结构分析

导入表主要由导入描述符（Import Descriptors）、导入名称表（Import Name Table）和导入地址表（Import Address Table）组成。每一个导入描述符指向一个特定的模块，并含有指向该模块导入名称表和地址表的指针。导入名称表存储了模块名和函数名的字符串，而导入地址表则包含了实际的函数地址。

4.2 查看导入表的方法

4.2.1 使用工具软件查看导入表

在查看导入表时，通常会使用一些现成的工具软件。例如，使用PE Explorer或者IDA Pro这样的反汇编工具可以非常直观地看到导入表中的模块名、函数名等信息。以下是使用PE Explorer查看导入表的基本步骤：

打开PE Explorer工具，选择打开一个PE文件。
在导航栏中找到“导入表”选项，点击进入导入表视图。
查看导入表中的所有导入模块，包括函数名和地址。
使用过滤和搜索功能，快速定位到特定模块或函数。

4.2.2 手动解析导入表信息

除了使用工具软件，我们也可以手动解析导入表信息。这对于深入理解PE文件格式以及进行底层开发都非常有帮助。下面是手动解析导入表信息的示例步骤，使用的是Windows自带的调试工具WinDbg：

打开WinDbg并附加到目标进程。
输入命令 !dh [PE文件地址] 来查看导入表和导出表的信息。
根据返回的信息，手动查找导入描述符和导入地址表。
理解如何通过这些结构访问实际的导入函数地址。

在手动解析过程中，可以使用WinDbg的特定命令来获取每个导入模块的详细信息，比如 !lmi [模块名] 可以列出指定模块的导入信息。

为了展示导入表结构，我们可以用以下的伪代码来表示其组成：

// 导入描述符结构体
typedef struct _IMAGE_IMPORT_DESCRIPTOR {
    DWORD Characteristics; // 导入描述符的特性
    DWORD TimeDateStamp;   // 时间戳
    DWORD ForwarderChain;  // 前向链
    DWORD Name;            // 指向模块名字符串的偏移
    DWORD FirstThunk;      // 指向导入名称表的偏移
} IMAGE_IMPORT_DESCRIPTOR, *PIMAGE_IMPORT_DESCRIPTOR;

// 导入名称表结构体（在实际的内存结构中可能会有所不同）
typedef struct _IMAGE_IMPORT_BY_NAME {
    WORD Hint;             // 提示值
    CHAR Name[1];          // 函数名
} IMAGE_IMPORT_BY_NAME, *PIMAGE_IMPORT_BY_NAME;

通过这些结构体，我们可以构建一个导入表，并遍历其中的信息，找到需要的模块和函数。

4.2.3 实际的导入表解析实例

为了更好的理解手动解析导入表的过程，我们可以通过一个实例来展示。假设我们有一个PE文件，其导入表结构如上所示。我们想要获取名为"MessageBoxA"的函数地址，该函数位于user32.dll模块中。以下是解析过程：

首先，找到user32.dll对应的IMAGE_IMPORT_DESCRIPTOR结构体。
遍历到FirstThunk成员，获取到导入地址表的地址。
同时，使用IMAGE_IMPORT_BY_NAME结构体遍历导入名称表，找到名称为"MessageBoxA"的条目。
将导入地址表中的地址和导入名称表中的"MessageBoxA"条目关联起来，即可获得函数的实际地址。

通过以上步骤，我们可以手动解析PE文件的导入表，并得到所需模块和函数的信息。这是底层开发和逆向工程中非常重要的技能。

5. 导入表编程访问方法

导入表（Import Table）是PE文件格式中的重要组成部分，它记录了程序执行过程中需要调用的外部函数或者模块的信息。导入表在运行时被操作系统解析，从而允许程序动态链接到所需的库。

5.1 编程访问导入表的原理

5.1.1 导入表数据的内存表示

导入表在内存中的表示和导出表有所区别。它由一系列的导入描述符组成，每个描述符指向一个需要导入的模块（DLL）。每个模块的描述符内包含导入地址表（IAT），这些表项最终会被操作系统填充为实际的函数地址。

5.1.2 导入表的内存地址解析

在程序执行前，操作系统通过导入表中的信息填充IAT。这个过程称为导入解析。操作系统会加载相应的DLL文件到内存中，并找到需要导入的函数的确切地址，然后更新导入表。

5.2 导入表的编程实践

5.2.1 在VC中编写访问导入表的代码

在Visual C++（VC）中，可以直接使用Win32 API来访问PE文件中的导入表。示例代码如下：

#include <windows.h>

BOOL WalkImportTable(const char* ModuleName) {
    PIMAGE_DOS_HEADER pDosHeader = (PIMAGE_DOS_HEADER) GetModuleHandle(NULL);
    if (!pDosHeader) return FALSE;

    if (pDosHeader->e_magic != IMAGE_DOS_SIGNATURE) return FALSE;

    PIMAGE_NT_HEADERS pNtHeaders = (PIMAGE_NT_HEADERS) ((DWORD)pDosHeader + pDosHeader->e_lfanew);
    if (pNtHeaders->Signature != IMAGE_NT_SIGNATURE) return FALSE;

    DWORD dwImportDescriptor = pNtHeaders->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_IMPORT].VirtualAddress;
    DWORD dwImportDescriptorSize = pNtHeaders->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_IMPORT].Size;

    PIMAGE_IMPORT_DESCRIPTOR pImportDesc = (PIMAGE_IMPORT_DESCRIPTOR) ((DWORD) pDosHeader + dwImportDescriptor);
    for (; dwImportDescriptorSize > 0; dwImportDescriptorSize -= sizeof(IMAGE_IMPORT_DESCRIPTOR), pImportDesc++) {
        if (pImportDesc->Name == NULL) break;
        char* szModName = (char*) ((DWORD) pDosHeader + pImportDesc->Name);
        if (_stricmp(szModName, ModuleName) == 0) {
            // 找到模块，进一步处理
        }
    }
    return TRUE;
}