在研究恶意软件分析时找到一个数据集,发现网上公开的能用的数据集不太好找,其中一篇论文声称提供了20m的巨量恶意软件样本
github链接:
https://github.com/sophos-ai/SOREL-20M
下载了一部分样本后发现,样本是zlib压缩然后修改了PE头的,解压后
也无法用沙箱跑也无法用,ida分析会提升报错:
You forgot to call set_processor_type()
这个报错直接查是查不到什么信息的,再去重新看这篇文章的论文,提到了对恶意样本进行了“无害化处理”,把
optional_headers.subsystem 和 file_header.machine 标志设置为 0,这两个字段Subsystem是用来指示可执行文件期望的子系统,machine则是指示这个PE文件是跑在什么操作系统上的(32位、64位),具体对应字段如下
因此通过脚本重新修改这两个字段即可,可以用lief或者pefile包来进行修改,个人认为pefile更方便一点,可以直接通过字段赋值,lief则是查看字段和各种信息总结更方便(pefile打印是16进制的,lief打印会转化成可读字符串),因此先用pefile修改,再用lief查询信息看修改结果,发现machine字段改变了
if __name__ == "__main__":
import pefile
import lief
pe = pefile.PE("rawdata")
pe.FILE_HEADER.Machine=0x014c
pe.OPTIONAL_HEADER.Subsystem=0x2
pe.write("newdata")
binary = lief.PE.parse("newdata")
header = binary.header
print(binary)
最后把文件上传进云沙箱看是否能正常运行,能正常运行表示修改成功