论文《AVScan2Vec: 恶意软件转成向量》解读-CSDN博客

本文链接：https://blog.csdn.net/sinat_33203678/article/details/147769266

*大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，热爱机器学习和深度学习算法应用，拥有丰富的AI项目经验，希望和你一起成长交流。关注AI拉呱一起学习更多AI知识。

论文《AVScan2Vec: 恶意软件转成向量》解读

类似项目

类似word2vec，是恶意软件的重新表示。
论文题目《AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale Malware Corpora》

解决的核心问题：

应对大规模恶意软件数据挑战：实际的恶意软件语料库规模庞大，可能包含超十亿个文件，需 PB 级存储空间。在如此大规模数据中查找相关恶意文件、进行分类和聚类等任务时，传统的特征提取和相似性搜索方法因计算成本过高而难以实现。本研究旨在探索一种更具可扩展性的方案，以满足大规模恶意软件分析的需求。
挖掘 AV 扫描数据的价值：AV 扫描数据蕴含丰富的恶意软件元信息，如恶意软件家族、行为、目标操作系统等特征。然而，此前并无研究将其作为机器学习特征加以利用。该研究尝试挖掘 AV 扫描数据的潜力，将其转化为有效的特征表示，为恶意软件分析提供新的数据来源。
构建高效的恶意软件特征学习模型：提出 AVScan2Vec 语言模型，通过自我监督特征学习，将 AV 扫描数据转换为有意义的向量表示。该模型能够将相似的恶意软件样本嵌入到相近的向量空间中，便于进行最近邻查找、聚类和分类等操作，从而提高恶意软件分析的效率和准确性。
提升模型性能与扩展性：AVScan2Vec 向量相比当前流行的替代方案，尺寸缩小了约 3 到 85 倍，可实现更快的向量比较和更低的内存使用。结合动态连续索引（DCI）技术，最近邻查询可扩展到最大的恶意软件生产数据集，使模型在大规模数据上具备良好的性能表现。
数据集
训练数据集：恶意软件分析平台 VirusTotal ，AV扫描数据和AV扫描报告
评估数据集：MOTIF 是最大的带有完整真实家族标签的公开恶意软件数据集，其中的恶意软件样本均经过人工分析标注。它是开源数据集，为研究提供了可靠的评估基准。SOREL 数据集，开源数据集。

代码

AVScan2Vec 项目代码地址为：https://github.com/boozallen/AVScan2Vec
4.1 编码思路
在这里插入图片描述

下游应用场景

分类任务：在行为标签分类和家族分类任务中，AVScan2Vec 表现出色。使用 FFNN 和 LightGBM 分类器对 SOREL 数据集进行行为标签分类时，AVScan2Vec 向量在 FFNN 分类器上，11 个行为标签的五折分类平均 ROCAUC 分数均最高；在 LightGBM OvR 分类器上，9 个行为标签的分数最高。对于家族分类，使用 MOTIF 数据集训练 FFNN、LightGBM 和 1 - 最近邻（1 - NN）分类器，AVScan2Vec 向量使 FFNN 分类器获得最高总体准确率，比其他方法高出 6 个百分点以上，且在各分类器中表现最佳或第二。
聚类任务：利用 K - 均值和层次凝聚聚类（HAC）算法对 MOTIF 数据集中的恶意软件样本进行聚类时，AVScan2Vec 在同质性、完整性和 V - 度量指标上均优于其他向量格式。表明其能更有效地将相关恶意软件样本聚集在一起，同时减少无关样本的误聚类。
最近邻查找：在最近邻查找实验中，从 SOREL - 110000 数据集中随机选择 10000 个文件进行查询，AVScan2Vec 向量在 11 个行为标签中的 9 个上获得最高的 F1 分数，相比其他方法有显著或边际的提升。结合动态连续索引（DCI）技术后，AVScan2Vec 在大规模数据集上的最近邻查找表现优异，构建 7192023 个 AVScan2Vec 向量的连续索引仅需约 22 分钟，平均查找时间为 0.501 秒 / 向量；使用 64 个 CPU 核心时，构建索引时间缩短至 75 秒，平均查找时间为 0.029 秒 / 向量，且查询能以高保真度返回相关恶意软件。