论文《AVScan2Vec: 恶意软件转成向量》解读

*大家好,我是AI拉呱,一个专注于人工智领域与网络安全方面的博主,现任资深算法研究员一职,热爱机器学习和深度学习算法应用,拥有丰富的AI项目经验,希望和你一起成长交流。关注AI拉呱一起学习更多AI知识。

论文《AVScan2Vec: 恶意软件转成向量》解读

类似项目

类似word2vec,是恶意软件的重新表示。
论文题目《AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale Malware Corpora》

解决的核心问题:

  1. 应对大规模恶意软件数据挑战:实际的恶意软件语料库规模庞大,可能包含超十亿个文件,需 PB 级存储空间。在如此大规模数据中查找相关恶意文件、进行分类和聚类等任务时,传统的特征提取和相似性搜索方法因计算成本过高而难以实现。本研究旨在探索一种更具可扩展性的方案,以满足大规模恶意软件分析的需求。
  2. 挖掘 AV 扫描数据的价值:AV 扫描数据蕴含丰富的恶意软件元信息,如恶意软件家族、行为、目标操作系统等特征 。然而,此前并无研究将其作为机器学习特征加以利用。该研究尝试挖掘 AV 扫描数据的潜力,将其转化为有效的特征表示,为恶意软件分析提供新的数据来源。
  3. 构建高效的恶意软件特征学习模型:提出 AVScan2Vec 语言模型,通过自我监督特征学习,将 AV 扫描数据转换为有意义的向量表示。该模型能够将相似的恶意软件样本嵌入到相近的向量空间中,便于进行最近邻查找、聚类和分类等操作,从而提高恶意软件分析的效率和准确性。
  4. 提升模型性能与扩展性:AVScan2Vec 向量相比当前流行的替代方案,尺寸缩小了约 3 到 85 倍,可实现更快的向量比较和更低的内存使用。结合动态连续索引(DCI)技术,最近邻查询可扩展到最大的恶意软件生产数据集,使模型在大规模数据上具备良好的性能表现。
  5. 数据集
    训练数据集:恶意软件分析平台 VirusTotal ,AV扫描数据和AV扫描报告
    评估数据集:MOTIF 是最大的带有完整真实家族标签的公开恶意软件数据集,其中的恶意软件样本均经过人工分析标注。它是开源数据集,为研究提供了可靠的评估基准。SOREL 数据集,开源数据集。

代码

AVScan2Vec 项目代码地址为:https://github.com/boozallen/AVScan2Vec
4.1 编码思路
在这里插入图片描述

下游应用场景

  1. 分类任务:在行为标签分类和家族分类任务中,AVScan2Vec 表现出色。使用 FFNN 和 LightGBM 分类器对 SOREL 数据集进行行为标签分类时,AVScan2Vec 向量在 FFNN 分类器上,11 个行为标签的五折分类平均 ROCAUC 分数均最高;在 LightGBM OvR 分类器上,9 个行为标签的分数最高。对于家族分类,使用 MOTIF 数据集训练 FFNN、LightGBM 和 1 - 最近邻(1 - NN)分类器,AVScan2Vec 向量使 FFNN 分类器获得最高总体准确率,比其他方法高出 6 个百分点以上,且在各分类器中表现最佳或第二 。
  2. 聚类任务:利用 K - 均值和层次凝聚聚类(HAC)算法对 MOTIF 数据集中的恶意软件样本进行聚类时,AVScan2Vec 在同质性、完整性和 V - 度量指标上均优于其他向量格式。表明其能更有效地将相关恶意软件样本聚集在一起,同时减少无关样本的误聚类。
  3. 最近邻查找:在最近邻查找实验中,从 SOREL - 110000 数据集中随机选择 10000 个文件进行查询,AVScan2Vec 向量在 11 个行为标签中的 9 个上获得最高的 F1 分数,相比其他方法有显著或边际的提升。结合动态连续索引(DCI)技术后,AVScan2Vec 在大规模数据集上的最近邻查找表现优异,构建 7192023 个 AVScan2Vec 向量的连续索引仅需约 22 分钟,平均查找时间为 0.501 秒 / 向量;使用 64 个 CPU 核心时,构建索引时间缩短至 75 秒,平均查找时间为 0.029 秒 / 向量,且查询能以高保真度返回相关恶意软件。

价值点

实现了恶意软件的重新表示,提高了恶意软件分析的下游任务,具有很好的参考价值。

关注“AI拉呱公众号”一起学习更多AI知识!

关注“AI拉呱公众号”一起学习更多AI知识!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值