EMBER数据集特征

原文:EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models 

原文地址:https://arxiv.org/pdf/1804.04637

特征集描述

3.2.1 解析特征

  • 一般文件信息。通用文件信息组中的特征集包括从PE头获取的文件大小和基本信息:文件的虚拟大小、导入导出函数的个数、文件是否有调试段、线程本地存储、资源、重定位或签名,以及符号的数量。
  • 头部信息。从 COFF 头中,头中的时间戳、目标机器(字符串)和图像特征列表(字符串列表)。从可选的头文件中,我们提供目标子系统(字符串)、DLL 特征(字符串列表)、作为字符串的文件的magic标志(例如,“PE32”)、主要和次要映像版本、链接器版本、系统版本和子系统版本,以及代码、标头和提交大小。为了创建模型特征,在训练模型之前使用特征散列技巧总结字符串描述符,如 DLL 特征、目标机器、子系统等,为每个噪声指标向量分配 10 个 bin。
  • 导入的函数。解析导入地址表,按库上报导入的函数。要为基线模型创建模型特征,我们只需收集一组独特的库并使用散列技巧来绘制集合(256 个 bin)。类似地,我们使用散列技巧(1024 个 bin)来捕获单个函数,将每个函数表示为一个字符串,例如 library:FunctionName 对(例如 kernel32.dll:CreateFileMappingA)。
  • 导出的函数。原始特征包括导出函数的列表。使用 128 个 bin 的散列技巧将这些字符串汇总为模型特征。
  • 节/段信息(Section information)。提供了每个部分的属性,包括名称、大小、熵、虚拟大小和表示部分特征的字符串列表。入口点由名称指定。为了转换为模型特征,我们对(部分名称,值)对使用散列技巧来创建包含部分大小、部分熵和虚拟大小(每个 50 个 bin)的向量。我们还使用散列技巧来捕获入口点的特征(字符串列表)。

3.2.2 与格式无关的特征

  • 字节直方图。字节直方图包含 256 个整数值,表示文件中每个字节值的计数。当生成模型特征时,这个字节直方图被归一化为一个分布,因为文件大小在一般文件信息中被表示为一个特征。
  • 字节熵直方图。 字节熵直方图近似于熵 H 和字节值 X 的联合分布 p(H,X)。这是按照《J. Saxe and K. Berlin. Deep neural network based malware detection using two dimensional binary program features. In Malicious and Unwanted Software (MALWARE), 2015 10th International Conference on, pages 11–20. IEEE, 2015.》中所述完成的,通过计算固定长度窗口的标量熵 H 并将其与窗口内出现的每个字节对配对。当窗口在输入字节上滑动时重复此操作。在ember的实现中,使用 2048 的窗口大小和 1024 字节的步长,使用 16 × 16 个 bin 来量化熵和字节值。在训练之前,我们将这些计数归一化以求和。 
  • 字符串信息。数据集包括有关至少五个可打印字符长的可打印字符串(由 0x20 到 0x7f 范围内的字符组成)的简单统计信息。提取的特征是字符串的数量、它们的平均长度、这些字符串中可打印字符的直方图以及所有可打印字符串中的字符熵。可打印字符分布提供了与上述字节直方图信息不同的信息,因为它仅来自包含至少五个连续可打印字符的字符串。此外,字符串特征组包括以 C:\(不区分大小写)开头的可能表示路径的字符串数量,http:// 或 https://(不区分大小写)可能表示一个URL,HKEY_ 的出现次数可能表示一个注册表项 ,以及短字符串 MZ 的出现次数可能提供 Windows PE 释放程序或捆绑可执行文件的弱证据。通过提供字符串的简单统计摘要而不是原始字符串列表,减轻了某些良性文件可能存在的隐私问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YZRuin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值