*大家好,我是AI拉呱,一个专注于人工智领域与网络安全方面的博主,现任资深算法研究员一职,热爱机器学习和深度学习算法应用,拥有丰富的AI项目经验,希望和你一起成长交流。关注AI拉呱一起学习更多AI知识。
论文《AVScan2Vec: 恶意软件转成向量》解读
类似项目
类似word2vec,是恶意软件的重新表示。
论文题目《AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale Malware Corpora》
解决的核心问题:
- 应对大规模恶意软件数据挑战:实际的恶意软件语料库规模庞大,可能包含超十亿个文件,需 PB 级存储空间。在如此大规模数据中查找相关恶意文件、进行分类和聚类等任务时,传统的特征提取和相似性搜索方法因计算成本过高而难以实现。本研究旨在探索一种更具可扩展性的方案,以满足大规模恶意软件分析的需求。
- 挖掘 AV 扫描数据的价值:AV 扫描数据蕴含丰富的恶意软件元信息,如恶意软件家族、行为、目标操作系统等特征 。然而,此前并无研究将其作为机器学习特征加以利用。该研究尝试挖掘 AV 扫描数据的潜力,将其转化为有效的特征表示,为恶意软件分析提供新的数据来源。
- 构建高效的恶意软件特征学习模型:提出 AVScan2Vec 语言模型,通过自我监督特征学习,将 AV 扫描数据转换为有意义的向量表示。该模型能够将相似的恶意软件样本嵌入到相近的向量空间中,便于进行最近邻查找、聚类和分类等操作,从而提高恶意软件分析的效率和准确性。
- 提升模型性能与扩展性:AVScan2Vec 向量相比当前流行的替代方案,尺寸缩小了约 3 到 85 倍,可实现更快的向量比较和更低的内存使用。结合动态连续索引(DCI)技术,最近邻查询可扩展到最大的恶意软件生产数据集,使模型在大规模数据上具备良好的性能表现。
- 数据集
训练数据集:恶意软件分析平台 VirusTotal ,AV扫描数据和AV扫描报告
评估数据集:MOTIF 是最大的带有完整真实家族标签的公开恶意软件数据集,其中的恶意软件样本均经过人工分析标注。它是开源数据集,为研究提供了可靠的评估基准。SOREL 数据集,开源数据集。
代码
AVScan2Vec 项目代码地址为:https://github.com/boozallen/AVScan2Vec
4.1 编码思路
下游应用场景
- 分类任务:在行为标签分类和家族分类任务中,AVScan2Vec 表现出色。使用 FFNN 和 LightGBM 分类器对 SOREL 数据集进行行为标签分类时,AVScan2Vec 向量在 FFNN 分类器上,11 个行为标签的五折分类平均 ROCAUC 分数均最高;在 LightGBM OvR 分类器上,9 个行为标签的分数最高。对于家族分类,使用 MOTIF 数据集训练 FFNN、LightGBM 和 1 - 最近邻(1 - NN)分类器,AVScan2Vec 向量使 FFNN 分类器获得最高总体准确率,比其他方法高出 6 个百分点以上,且在各分类器中表现最佳或第二 。
- 聚类任务:利用 K - 均值和层次凝聚聚类(HAC)算法对 MOTIF 数据集中的恶意软件样本进行聚类时,AVScan2Vec 在同质性、完整性和 V - 度量指标上均优于其他向量格式。表明其能更有效地将相关恶意软件样本聚集在一起,同时减少无关样本的误聚类。
- 最近邻查找:在最近邻查找实验中,从 SOREL - 110000 数据集中随机选择 10000 个文件进行查询,AVScan2Vec 向量在 11 个行为标签中的 9 个上获得最高的 F1 分数,相比其他方法有显著或边际的提升。结合动态连续索引(DCI)技术后,AVScan2Vec 在大规模数据集上的最近邻查找表现优异,构建 7192023 个 AVScan2Vec 向量的连续索引仅需约 22 分钟,平均查找时间为 0.501 秒 / 向量;使用 64 个 CPU 核心时,构建索引时间缩短至 75 秒,平均查找时间为 0.029 秒 / 向量,且查询能以高保真度返回相关恶意软件。
价值点
实现了恶意软件的重新表示,提高了恶意软件分析的下游任务,具有很好的参考价值。
关注“AI拉呱公众号”一起学习更多AI知识!
关注“AI拉呱公众号”一起学习更多AI知识!