静态扫描之ImpHash检测法

最新推荐文章于 2025-01-06 16:02:34 发布

G4rb3n

最新推荐文章于 2025-01-06 16:02:34 发布

阅读量2.8k

点赞数

分类专栏：恶意软件分析

恶意软件分析专栏收录该内容

40 篇文章

订阅专栏

本文介绍了通过检测恶意软件的PE文件导入表（Imports）来识别恶意软件的方法。ImpHash是一种根据函数导入顺序生成的独特哈希值，可用于归类结构相似的恶意软件家族。即使两个不同的二进制文件的函数导入模式相同，但由于编译方式的不同，得到的ImpHash也会不同。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用 Import Hashing 检测恶意软件

翻译自：https://www.fireeye.com/blog/threat-research/2014/01/tracking-malware-import-hashing.html

一种特殊的检测恶意软件的方法是检测其PE文件导入表（Imports），导入表就是一个包含所有调用函数（一般是调用自Windows系统各种DLL）的表。对于每个软件（恶意软件），其ImpHash是唯一的，因为编译器是根据源码中每个函数出现的顺序来制定IAT（Import Address TableI）的。

下面以两个源码示例来进行演示：

#include 
#include 
#include 
#include 
#pragma comment(lib, "ws2_32.lib")
#pragma comment(lib, "wininet.lib")
int makeMutexA()
{
    CreateMutexA(NULL, FALSE, "TestMutex");
    return 0;
}
int makeMutexW()
{
    CreateMutexW(NULL, FALSE, L"TestMutex");
    return 0;
}
int makeUserAgent()
{
    HANDLE hInet=0, hConn=0;
    char buf[sizeof(struct hostent)] = {0};
    hInet = InternetOpenA("User-Agent: (Windows; 5.1)", INTERNET_OPEN_TYPE_DIRECT, NULL, NULL, 0);
    hConn = InternetConnectA(hInet, "www.google.com", 443, NULL, NULL, INTERNET_SERVICE_HTTP, 0, 0);
    WSAAsyncGetHostByName(NULL, 3, "www.yahoo.com", buf, sizeof(struct hostent));
    return 0;
}
int main(int argc, char *argv[])
{
    makeMutexA();
    makeMutexW();
    makeUserAgent();
    return 0;
}

将上述源码编译时，生成的IAT如下所示：

ws2_32.dll
ws2_32.dll.WSAAsyncGetHostByName

wininet.dll
wininet.dll.InternetOpenA
wininet.dll.InternetConnectA

kernel32.dll
kernel32.dll.InterlockedIncrement
kernel32.dll.IsProcessorFeaturePresent
kernel32.dll.GetStringTypeW
kernel32.dll.MultiByteToWideChar
kernel32.dll.LCMapStringW
kernel32.dll.CreateMutexA
kernel32.dll.CreateMutexW
kernel32.dll.GetCommandLineA
kernel32.dll.HeapSetInformation
kernel32.dll.TerminateProcess

Imphash: 0c6803c4e922103c4dca5963aad36ddf

我简化了导入表以节省空间，其中粗体的API是源代码中引用到的函数。请注意它们在导入表中出现的顺序，并将它们与源码中显示的顺序进行比较。

如果作者调整下函数的调用顺序，那么相应的，导入表也会随之变化，还是上面的源码实例：

#include 
#include 
#include 
#include 
#pragma comment(lib, "ws2_32.lib")
#pragma comment(lib, "wininet.lib")
int makeMutexW()
{
    CreateMutexW(NULL, FALSE, L"TestMutex");
    return 0;
}
int makeMutexA()
{
    CreateMutexA(NULL, FALSE, "TestMutex");
    return 0;
}
int makeUserAgent()
{
    HANDLE hInet=0, hConn=0;
    char buf[sizeof(struct hostent)] = {0};
    hConn = InternetConnectA(hInet, "www.google.com", 443, NULL, NULL, INTERNET_SERVICE_HTTP, 0, 0);
  hInet = InternetOpenA("User-Agent: (Windows; 5.1)", INTERNET_OPEN_TYPE_DIRECT, NULL, NULL, 0);
    WSAAsyncGetHostByName(NULL, 3, "www.yahoo.com", buf, sizeof(struct hostent));
  return 0;
}
int main(int argc, char *argv[])
{
    makeMutexA();
    makeMutexW();
    makeUserAgent();
    return 0;
}

在这个例子中，我们调换了makeMutexW和makeMutexA以及InternetConnectA和InternetOpenA的顺序。（请注意，这将是一个错误的API调用逻辑，但我只是在这里作为讲解示范）下面是该源码的IAT，我们来跟上面的导入表和ImpHash进行比较：

ws2_32.dll
ws2_32.dll.WSAAsyncGetHostByName

wininet.dll
wininet.dll.InternetConnectA
wininet.dll.InternetOpenA

kernel32.dll
kernel32.dll.InterlockedIncrement
kernel32.dll.IsProcessorFeaturePresent
kernel32.dll.GetStringTypeW
kernel32.dll.MultiByteToWideChar
kernel32.dll.LCMapStringW
kernel32.dll.CreateMutexW
kernel32.dll.CreateMutexA
kernel32.dll.GetCommandLineA
kernel32.dll.HeapSetInformation
kernel32.dll.TerminateProcess

Imphash: b8bb385806b89680e13fc0cf24f4431e

我们发现随着函数调用顺序的改变， ImpHash 也会变得截然不同。

下面这个例子，将展示在编译时，包含文件的排序是如何影响IAT的（以及由此产生的ImpHash）。在此示例，原来的imphash.c将包含进imphash1.c和imphash2.c：

-- imphash1.c --
int makeNamedPipeA()
{
HANDLE ph = CreateNamedPipeA("\\.\pipe    est_pipe", PIPE_ACCESS_DUPLEX,
    PIPE_TYPE_MESSAGE, 1, 128,
    64, 200, NULL);
    return 0;
}

-- imphash2.c --
int makeNamedPipeW()
{
    HANDLE ph2 = CreateNamedPipeW(L"\\.\pipe    est_pipeW", PIPE_ACCESS_DUPLEX,
        PIPE_TYPE_MESSAGE, 1, 128,
        64, 200, NULL);
    return 0;
}

-- imphash.c --
#include 
#include 
#include 
#include 
#include "imphash1.h"
#include "imphash2.h"
#pragma comment(lib, "ws2_32.lib")
#pragma comment(lib, "wininet.lib")
int makeMutexW()
{
    CreateMutexW(NULL, FALSE, L"TestMutex");
    return 0;
}
int makeMutexA()
{
    CreateMutexA(NULL, FALSE, "TestMutex");
    return 0;
}
int makeUserAgent()
{
    HANDLE hInet = 0, hConn = 0;
    char buf[sizeof(struct hostent)] = {0};
    hConn = InternetConnectA(hInet, "www.google.com", 443, NULL, NULL, INTERNET_SERVICE_HTTP, 0, 0);
    hInet = InternetOpenA("User-Agent: (Windows; 5.1)", INTERNET_OPEN_TYPE_DIRECT, NULL, NULL, 0);
    WSAAsyncGetHostByName(NULL, 3, "www.yahoo.com", buf, sizeof(struct hostent));
    return 0;
}
int main(int argc, char *argv[])
{
    makeMutexA();
    makeMutexW();
    makeUserAgent();
    makeNamedPipeA();
    makeNamedPipeW();
    return 0;
}

使用以下命令编译：

cl imphash.c imphash1.c imphash2.c /W3 /WX /link

IAT顺序如下：

ws2_32.dll
ws2_32.dll.WSAAsyncGetHostByName
wininet.dll
wininet.dll.InternetConnectA
wininet.dll.InternetOpenA
kernel32.dll
kernel32.dll.TlsFree
kernel32.dll.IsProcessorFeaturePresent
kernel32.dll.GetStringTypeW
kernel32.dll.MultiByteToWideChar
kernel32.dll.LCMapStringW
kernel32.dll.CreateMutexW
kernel32.dll.CreateMutexA
kernel32.dll.CreateNamedPipeA
kernel32.dll.CreateNamedPipeW
kernel32.dll.GetCommandLineA
kernel32.dll.HeapSetInformation
kernel32.dll.TerminateProcess

Imphash: 9129bdbc18cfd1aba498c94e809567d5

在imphash.c中更改imphash1.h和imphash2.h的include顺序将不会影响IAT的顺序。但是，更改编译命令中文件imphash1.h和imphash2.h的顺序则会影响IAT（PS：注意CreateNamedPipeW和CreateNamedPipeA的重新排序）：

cl imphash.c imphash2.c imphash1.c /W3 /WX /link

ws2_32.dll
ws2_32.dll.WSAAsyncGetHostByName
wininet.dll
wininet.dll.InternetConnectA
wininet.dll.InternetOpenA
kernel32.dll
kernel32.dll.TlsFree
kernel32.dll.IsProcessorFeaturePresent
kernel32.dll.GetStringTypeW
kernel32.dll.MultiByteToWideChar
kernel32.dll.LCMapStringW
kernel32.dll.CreateMutexW
kernel32.dll.CreateMutexA
kernel32.dll.CreateNamedPipeW
kernel32.dll.CreateNamedPipeA
kernel32.dll.GetCommandLineA
kernel32.dll.HeapSetInformation
kernel32.dll.TerminateProcess

Imphash: c259e28326b63577c31ee2c01b25d3fa

这些例子表明，源代码中函数导入的顺序以及编译时的参数顺序都会影响IAT，从而影响产生的ImpHash值。也就是说，即使两个不同的二进制文件的函数导入模式一样，但因为编码时的方式不一样，最终得到的ImpHash值也会不同。相反，如果两个文件具有相同的ImpHash值，则它们具有相同的IAT，这意味着这些文件是从相同的源代码编译的，并且编码方式相同。

对于一些加壳样本、小型的工具和程序（因为其导入函数很少，编译方式也可能相同），它们的ImpHash值就可能相同。换句话说，两个不同恶意软件可能会因为这些因素具有相同的ImpHash。

然而，对于更复杂的工具（如恶意软件）来说，在存在足够数量的导入函数的情况下，ImpHash应该是唯一的，因此可以用于识别结构相似的恶意软件家族。虽然具有相同ImpHash的恶意软件不能保证来自相同的家族，但至少可以给你提供一个额外的线索。

我们在使用ImpHash检测恶意软件上取得了巨大的成功。官方也将此方法加入了pefile库，示例代码：

import pefile
pe = pefile.PE(sys.argv[1])
print "Import Hash: %s" % pe.get_imphash()

设想一个场景，一个攻击者根据不同的C&C地址和代号ID编译30个后门变种，并将它们部署到不同的公司。如果有博客文章讨论其公司正被某MD5的后门监视，那么基于该MD5，攻击者立即知道哪些C&C服务器处于危险之中。但是，如果博客只是讨论后门的ImpHash值，则攻击者并不知道究竟是30个变种中的哪个被发现。

为了展示这种检测方法的效果，我们来看一看Mandiant APT1报告中分享的几个恶意软件家族的ImpHash值：

Family Name          Import Hash          Total Imports Number of matched Samples

GREENCAT    2c26ec4a570a502ed3e8484295581989      74              23
GREENCAT    b722c33458882a1ab65a13e99efe357e      74              18
GREENCAT    2d24325daea16e770eb82fa6774d70f1     113              13
GREENCAT    0d72b49ed68430225595cc1efb43ced9     100              13
STARSYPOUND 959711e93a68941639fd8b7fba3ca28f      62              31
COOKIEBAG   4cec0085b43f40b4743dc218c585f2ec      79              10
NEWSREELS   3b10d6b16f135c366fc8e88cba49bc6c      77              41
NEWSREELS   4f0aca83dfe82b02bbecce448ce8be00      80              10
TABMSGSQL   ee22b62aa3a63b7c17316d219d555891     102               9
WEBC2       a1a42f57ff30983efda08b68fedd3cfc      63              25
WEBC2       7276a74b59de5761801b35c672c9ccb4      52              13