Basic Information:
- Title: STAMINA: Scalable Deep Learning Approach for Malware Classification (STAMINA: 可扩展的深度学习方法用于恶意软件分类)
- Authors: Li Chen, Ravi Sahita, Jugal Parikh, Marc Marino
- Affiliation: Intel Corporation (Intel 公司)
- Keywords: deep learning, malware classification, transfer learning, static analysis
- URLs: None, GitHub: None
论文简要 :
- 这项研究利用深度学习技术,通过将自然图像的知识转移到静态恶意软件检测领域,实现了高效的恶意软件分类方法,并在实际用户数据集上验证了其优越性。
背景信息:
- 论文背景: 这项研究合作使用深度学习技术进行恶意软件威胁检测,通过静态分析和转移学习来避免手动特征工程的耗时,并优化模型的大小,实现高精度低误报率的恶意软件分类。
- 过去方案: 传统的恶意软件检测方法涉及提取恶意软件的二进制签名或指纹,但随着恶意软件签名数量呈指数增长,签名匹配变得更加困难,静态和动态分析等方法各有利弊。
- 论文的Motivation: 由于恶意软件签名数量激增,作者提出利用深度学习技术和转移学习来消除手动特征工程耗时的挑战,实现对静态恶意软件的高效分类,希望解决传统方法在处理庞大恶意软件签名时效率低下的问题。
方法:
- a. 理论背景:
- 研究采用了深度学习技术进行恶意软件分类,通过图像转换x86程序二进制文件,取得了99.07%的准确率和2.58%的误报率。
- b. 技术路线:
- 采用了STAMINA方法,包括预处理、迁移学习、评估和诠释等步骤。
- 预处理:
- 将二进制应用程序的字节转换为像素强度,创建一维像素流。
- 根据经验验证的表格将像素流重塑为二维。
- 使用双线性插值或最近邻算法将图像调整为224或299以准备进行迁移学习。
- 迁移学习:
- 冻结预训练模型的一部分层,并对最后几层进行微调,通过继续反向传播训练恶意软件和良性图像的有效分类器。
- 主要的迁移学习方案包括使用作为特征提取器和通过持续反向传播来微调网络权重。
- 评估:
- 考虑了准确率、假阳率、精确率、召回率、F1分数和ROC曲线下的面积等指标。
- 数据描述:
-
在Microsoft数据集上进行分析,共有220万个恶意软件二进制文件的哈希值。
-
- 预处理:
- 采用了STAMINA方法,包括预处理、迁移学习、评估和诠释等步骤。
结果:
- a. 详细的实验设置:
- 采用了lightGBM进行训练,通过梯度提升算法达到了高准确率。
- b. 详细的实验结果:
-
STAMINA模型I在测试集上达到了99.07%的准确率,假阳率为2.58%,精确率为99.09%,召回率为99.66%,F1分数为0.9937。
-