LSTM和GAN结合模型的恶意软件检测

我叫czc

已于 2024-11-16 09:43:24 修改

阅读量1.1k

点赞数 13

分类专栏：恶意代码分析（恶意软件检测）文章标签：笔记 lstm 生成对抗网络

于 2024-06-03 08:48:19 首次发布

本文链接：https://blog.csdn.net/qq_25177949/article/details/139402112

版权

恶意代码分析（恶意软件检测）专栏收录该内容

23 篇文章

订阅专栏

Leveraging LSTM and GAN for Modern Malware Detection LSTM和GAN结合模型恶意软件检测

论文官网链接

zotero库链接

zotero-pdf链接

摘要

恶意软件蓬勃发展的网络空间的危险程度堪比气候变化对生态系统的影响。在对网络安全技术和人员培训进行大量投资的情况下，国际社会已陷入与网络安全威胁的永恒战争中。恶意软件的多种形式和不断变化的面貌不断突破网络安全从业者的界限，他们采用检测和缓解等各种方法来应对这一问题。一些旧的行为方式（例如基于签名的检测和行为分析）很难适应恶意软件类型的快速演变。因此，本文提出利用深度学习模型、LSTM 网络和 GAN 来提高恶意软件检测的准确性和速度。人工智能技术是一种快速发展的最先进技术，利用基于字节流的原始数据和深度学习架构，提供比传统方法更好的准确性和性能。 LSTM和GAN模型的集成是用于合成数据的技术，导致训练数据集的扩展，从而提高检测精度。本文使用 VirusShare 数据集作为所提出模型的训练和评估集，该数据集拥有超过一百万个独特的恶意软件样本。通过彻底的数据准备（包括标记化、增强以及模型训练），LSTM 和 GAN 模型在任务中表现出比直接分类器更好的性能。研究结果准确率高达98%，表明深度学习的效率在主动网络安全防御中发挥着决定性作用。除此之外，本文还研究了集成学习和模型融合方法的输出，作为减少偏差和提高模型复杂性的一种方法。通过弥补先前研究中突出的差距和改进方法的创新，本研究旨在确保网络安全专家配备有用的工具来发现和应对高级网络威胁。该研究采用最先进的机器学习算法，可以为恶意软件检测和现代网络安全实践提出新策略。

1 介绍

应牢记这种恶性连续体的巨大规模，因为它类似于气候变化对生物圈的影响。同样，当我们谈论气候变化给生态系统和人类生活带来的意外后果时，日益复杂的恶意软件类型的发展对全球网络环境安全构成了同样的损害。网络安全企业花费大量资金购买、实施和完善网络安全技术，以及培训网络防御者，但社区发现自己陷入了与网络攻击者的持续联盟中，而网络攻击者仍然顽固、适应性强且不可预测。另一方面，恶意软件有多种形式，例如广告软件、间谍软件、病毒、蠕虫、木马、rootkit、勒索软件和命令与控制机器人，它们往往具有不同的任务和行为动作 [4]。该恶意软件及其运行机制每天都在进步并变得更加先进，给网络安全带来了永久性的挑战。检测和缓解策略也需要跟上不断变化的网络威胁[5]。在煽动恶意软件的斗争中，网络领域的对手不断完善他们的逃脱策略。最后，网络安全世界中的猫捉老鼠的游戏始终是一场外交较量。 [6]。 2017 年的 WannaCry 勒索软件攻击属于网络威胁范围的远端，展示了攻击易受攻击系统的黑客的全部规模，攻击数量不少于 23 万个，其中包括医疗保健服务提供商、政府系统和一般 IT 系统最终扰乱了他们的稳定工作并导致经济损失。基于签名的检测和行为分析等现有的恶意软件检测策略已经被证明可以对抗恶意软件菌株的快速突变 [8]。黑客每天都会进行更新和改进，因此实体必须使用新的智能技术来提出他们的技术 [9]。用于网络流量分析的浅层机器学习模型通常是基于特征向量的，专家手工制作的特征受到关注，因为这种方法可以实现最佳性能。然而，这些方法预计将面临多种问题，导致其效率低下。最初，我们严重缺乏开放且商定的可在这些模型上训练的流量类型的标记数据。这个问题主要是由于隐私问题和数据共享政策造成的。由于网络安全、异常检测、数据流分类等特定目标不存在标准化的特征数据集，因此机器学习解决方案的开发很困难。此外，移动网络测量统计数据使得古老的手工制品变得无关紧要，导致处理性能随着时间的推移而下降。

该论文建议，人们不仅应该关注浅层机器学习模型，还应该端到端部署深度学习模型，以便能够补充网络测量分析中的传统浅层机器学习方法。我们坚持开发一种恶意软件流量检测和分类技术，该技术可与以原始字节流数据作为输入的深度神经元网络配合使用。深化该领域的最新发展，我们尝试了不同的深度学习架构和输入格式，这些架构和输入格式非常适合分析原始字节流数据包数据，以在本研究提出的任务中优于检测恶意软件流量的传统方法。与传统解决方案相比，采用深度学习方法来分析原始字节流数据包数据更快、更高效，无需手动特征工程，并将神经网络的内在表示学习属性引入游戏中。引导流量原始数据的深度学习模型可以识别确切的模式和互连，最终导致更准确、更可靠的恶意软件检测系统。在我们的反馈实验中，我们评估了深度学习的优点，以克服浅层机器学习模型的缺陷，这些缺陷仍然阻碍网络测量分析领域的发展。

本文介绍了一种创新策略，该策略利用深度学习能力——特别是长短期记忆（LSTM）网络和生成对抗网络（GAN）——来支持恶意软件检测。将能够很好地捕获序列数据的 LSTM 网络与能够生成真实合成数据的 GAN 相结合，为网络安全领域的人工智能提供了一种新方法。在给定的工作中，我们展示了一个由数据准备、LSTM 建模、GAN 建模、LSTM 数据增强和 LSTM 再训练组成的综合系统 - 所有这些对于改进恶意软件检测系统都很重要。通过实施这种独特的深度学习集成方法，我们的目的是超越传统，为网络安全专家提供更有用的工具，从而能够先发制人最复杂的网络威胁。

2 相关工作

2.1 恶意软件发展趋势

此处省略亿些字

2.2 传统恶意软件检测方法

此处省略亿些字

2.3 基于人工智能的恶意软件检测技术

传统解决方案仍然有一席之地，但现在面临着恶意软件规避技术开发的挑战。机器学习（ML）的进步不仅为我们提供了高效的恶意软件检测技术，还为我们提供了许多经过充分验证的案例研究。

舒尔茨等。我们通过研究 PE 的静态特征、字节 n-gram 以及字符串特征，将机器学习应用于看不见的恶意软件检测，并证明了准确性结果。 Elovici等人：使用Pearson相关性和Fisher评分进行特征选择，通过ANN、BN、DT等分类器将准确率从94.72%提高到95.8%。 Santos等人通过SVM的信息增益进行监督学习和特征选择，以提高其准确性。

里克等人。提出了恶意软件行为聚类和分类框架，这对于恶意软件检测和分析过程的自动化具有重要意义。除了Anderson提出的Ember数据集之外，他的团队还提出了一个由静态PE反恶意软件引擎建立的用于动态预防恶意软件攻击的强化学习框架。夏尔马等人。通过操作码的出现，证明了恶意软件检测的更高精确度。在最新的发展中，唐等人。发现了一种通过 API 调用序列变换和 CNN 分类来检测恶意静态代码的方法。 Jin 和他的同事创建了高精度的 SigPID 分类系统，将准确率提高到 96% 以上。拉夫等人。自从发现一致泛化以来，我们一直在使用神经网络进行恶意软件执行级别检测。

Alzaylaee 等人的最新研究。推出DL-Droid，这是利用动态特征对Android恶意软件进行动态恶意软件检测，检测率达到97.8%。他们展示了基于人工智能的方法在将恶意软件检测提高到一个全新水平方面的优势。

最新的方法是 GNN 架构，它基于图作为输入和输出，因此对于恶意软件检测非常有效。对 GCN 的深入研究将为在 API 调用序列结构的基础上增强现有技术提供思路。

本节代表恶意软件威胁的持续轰炸，并广泛解释人工智能和机器学习如何加速恶意软件检测过程。该团队正在提出新颖的方法，以便它们能够在与更复杂、狡猾的恶意软件行为的斗争中独一无二，而斗争将永远不会停止。

这里讨论的研究的特点是深度学习恶意软件检测数据库在偏差、可扩展性和可解释性方面存在瓶颈。我们使用人工智能方法进行数据增强，例如使用生成对抗网络 (GAN) 进行数据增强，以提高通用性、提高准确性水平并提高性能。消除数据集中的偏差是我们的首要任务之一，因此我们的目标是使用集成学习和模型融合技术，以及基于由多种数据表示组成的系统调用序列的静态字节码分析。因此，采用整体方法可以产生强大的恶意软件意识和恶意软件检测准确性，而恶意软件由于其无所不在而处于各种不同的条件下。数据驱动方法与代码检查的特征提取和图像处理相结合，提供了深入的精细图案披露，从而确保了系统的高准确性和可扩展性。除此之外，我们还提供可翻译为人类语言的模型，并对恶意软件的行为给出清晰的解释。我们的想法面临严峻的现实，但最重要的是，在日常生活中，我们可以证明我们的道路是现实且可行的。我们的研究旨在通过一种解决方案来填补该领域的空白，该解决方案将在现实生活中被证明是准确的、可解释的和可扩展的通过应用深度学习技术作为主要工具的应用。

与该研究领域当前的论文相反，我们的贡献通过数据集丰富、模型融合和特征工程组件的结合而变得多样化，这是同类中的第一个。这使我们能够解决以往研究中的不足，并制定出具有更高准确度、更大范围和洞察力的稳定方法。

3 研究问题

事实上，恶意软件既表现出相似性又具有独特性，而且在网络空间中操纵敌人的能力非常流畅，使得这项任务成为一项具有挑战性的任务。这两类由用于检测的两种方法组成，即静态分析和动态分析。静态分析通常集中于确定恶意软件样本中的威胁成分，而动态分析则提供了对目标的另一种视角，是对静态分析的补充。恶意软件静态诊断过程包括对不可能破解的代码串和代码结构模式的挑战[27]。然而，为了在黑客行动时抓住他们，动态分析使我们能够看到恶意软件在安全空间中运行时的行为。它报告运行时操作并提供恶意软件创建的交互记录[32]。相反，这两种方法的实用性会上升，因为它们不需要了解每种方法的优点并仔细混合它们。

主要问题是更有效地解决恶意软件检测的特征选择问题，这也将提高模型的复杂性并降低大型数据集的分析能力。问题是要使该集合没有任何重复项，并且该集合是恶意行为特征的解决方案，换句话说，是鲁棒特征的子集，这些特征将尽可能有效地特征化恶意行为，而它们是降低误报概率并使用有限的计算资源。当机器学习算法自动执行特征选择过程时，它可以更快、更详细地彻底处理数据。这是因为它加速了算法的工作。

其次，由于机器学习模型的类型是研究过程中的一个重要因素——包括k最近邻（K-NN）、决策树（DT）、卷积神经网络和支持向量机（SVM），因此出现了另一个挑战[30]。本例的目标是实用性，特别是在迭代和自然数据样本中使用不同的机器学习算法，看看它们是否可以跨数据集正确识别恶意软件、扩展并可以在不同的场景中工作。因此，这是比较所有其他机器学习算法的重点，以选择最适合实时恶意软件和网络攻击识别的算法。

在寻求解决这些问题的过程中，这项研究的进展是：一种具有显着特征的创造性技术已经能够克服恶意软件检测这一关键因素，事实上，当前的网络策略可以非常迅速地得到加强面对不断变化的网络威胁。下一阶段将包括利用评估工作的方法和手段，包括如何得出结果。

4 数据集

VirusShare 数据集是恶意软件样本的综合集合，已被研究人员和网络安全专业人员广泛用于分析和研究各种类型的恶意软件。该数据集对于了解不同平台和环境中恶意软件的特征、行为和分布非常有价值。在这个详细的解释中，我们提供了 VirusShare 数据集的数字和事实概述，重点介绍了关键统计数据和特征。

4.1 VirusShare 数据集概述

此处省略亿些字

4.2 关键统计数据

此处省略亿些字

4.3 恶意软件样本特征

VirusShare 数据集提供了有关恶意软件样本各种特征的见解，包括：VirusShare 数据集提供了有关恶意软件样本各种特征的见解，包括：
文件大小分布：文本文件的大小从几千字节到 10,000 千字节不等，基本上在 100 千字节到 1 兆字节范围内。
代码复杂性：讨论破译常规代码的方法、编码程序的反编译以及不同恶意软件家族使用的反检测技术。
行为分析：有关观察到的恶意行为的信息包括网络通信功能、系统修改和有效负载执行。

4.4 这个数据集的使用和研究应用

此处省略亿些字

5 方法

在本节中，我们将解释数据预处理器，并提出一种使用本文讨论的基于 GAN 的 LSTM 模型的检测器。

在这里插入图片描述

系统流程如图2所示。图左侧说明了系统流程，图右侧通过指示步骤的蓝色曲线说明了重点工作。首先运行沙箱，从中识别样本调用的 API，然后通过随机删除来扩充 API 调用序列，对序列进行标记化，最后填充到固定长度。 LSTM 和 GAN 模型同时进行分类训练。最后，LSTM 模型再次进行随机插入、替换和排列，并重新训练用于分类。

5.1 数据准备

5.1.1 预处理

实验在Ubuntu 24.04系统的工作站上进行。为了监控和提取每个样本的调用序列，在工作站上部署了cuckoo沙箱作为样本的运行环境并提取API调用序列。工作是指去除噪声、数据错误处理、建立单一数据格式标准等操作。通过最小-最大缩放或 Z 分数标准化等特征缩放等技术对数据库进行标准化，以使所有特征与模型的训练相关 [2]。除此之外，还采用了信息增益或相关分析或互信息等主要选择技术，以便在保留主导特征的同时降低维度和计算复杂度[2]。

5.1.2 Tokenization

API 调用序列被移至标记中，以生成输入文本数据的数字表示形式，为 LSTM 模型的操作做好准备。这些可以通过为每个 API 或功能调用建立单独的令牌或简单地使用共享令牌来完成。处理自然语言处理 (NLP) 的标记化策略，主要是词嵌入（例如 Word2Vec 或 GloVe），被转移以使研究人员有机会捕获序列中的语义连接以及上下文信息 [3]。

5.1.3 增强（Augmentation）

使用数据增强技术来强调数据训练集的数量和多样性；这些用于增强模型的泛化性和抵抗力。在平衡类分布中，合成数据生成是一种常用的方法，例如SMOTE（合成少数过采样技术）[4]。回归模型（例如 LSTM 或 GBDT）用于创建 API 调用序列的虚假样本，以用于恶意软件复制 [5]。

5.2 LSTM模型训练

在这里插入图片描述

5.2.1 架构设计

LSTM 神经网络架构是一种基于模型的缓解策略，可根据恶意软件检测任务处理输入。指定了诸如循环 LSTM 层数、每层中的隐藏单元以及激活函数类型（例如 sigmoid/tanh）和丢失率等变量 [7]。网格搜索和贝叶斯优化是广泛应用于超参数调整和性能优化的方法之一[7]。

5.2.2 输入准备

在标记化和增强之后，LSTM 网络在 API 调用的组织序列和窗口批次下进行训练。诸如序列填充（以避免可变序列长度）和批处理（在并行处理框架内生成小批量集合）等技术正在开发中[8]。数据被格式化为与设置的 LSTM 模型输入一致的张量，从而保持每个序列内 API 调用的时间顺序相同。

5.2.3 模型训练 Model Training

LSTM 架构的模型通过使用 BPTT（时间反向传播）进行训练，以学习 API 调用序列集中包含的与恶意软件行为模式相对应的时空特征。训练参数，包括学习率、批量大小和优化器（例如 Adam 或 RMSprop）经过彻底调整，以快速达到模型性能并防止过度拟合，从而使模型不适合训练数据中的噪声 [9]。诸如早期停止和模型检查点之类的方法被用于监控训练和保存最佳模型权重等技术中。

5.3 GAN模型训练

在这里插入图片描述

5.3.1 生成器设计

GAN 生成器配置旨在模仿合法的 API 调用记录，这些记录与恶意生成的 API 调用记录具有相同的特征。文献中对 DCGAN 和 WGAN 等方法进行了实验测试，以确保生成序列的稳定性和质量 [10]。生成器网络被教导根据网络学习的分布生成不同随机采样输出表示的序列。

5.3.2 鉴别器设计

GAN 的判别器的任务是区分真实的 API 调用流（来自原始数据集）和合成的 API 调用流（由生成器生成的调用流）。判别器网络利用判别参数和指标（wasserstein 距离和交叉熵损失）来区分训练期间的不同序列[11]。

5.3.3 训练过程

GAN 模型网络通过对抗性学习获得力量，其中生成器网络和鉴别器网络相互竞争。梯度惩罚和谱归一化等技术被应用于保护对抗性训练并避免模式崩溃[12]。训练过程迭代更新生成器和鉴别器网络，以提高生成序列的质量和多样性。

5.4 LSTM数据增强

5.4.1 合成序列生成

然后，采用经过训练的 GAN 生成器的生成集来生成基于先前学习的潜在空间表示的伪 API 调用序列。潜在空间插值或条件序列生成等技术类别是控制合成序列的多样性和真实性的过程方案[2]。生成器的设计方式如此，以便它可以处理特定的恶意软件功能或隐藏状态，以生成专门定制的序列。

5.4.2 增强过程

由 GAN 生成的合成序列引起的变化与常规 LSTM 训练数据集合并，从而创建更大的数据集。在这里，重复训练也有助于覆盖各种恶意软件模式，从而将模型升级到其母性能力，使其能够识别恶意软件的微小变体。数据i增强了随机删除、随机排列和随机选择。应用过采样或数据加权等技术来确保每个类别中存在平衡且适当数量的样本[14]。

5.5 LSTM模型再训练

5.5.1 增强训练数据集

LSTM 架构用于使用丰富的数据集重新训练模型，该数据集现在包含实际的 API 调用序列和综合创建的序列。每次迭代都会改进训练，并根据扩展的数据生成更精细调整的参数，这有助于模型以更高的准确性和鲁棒性检测和分类恶意软件行为。

5.5.2 迭代训练

与以前不同，神经网络现在可以在 LSTM 模型重新训练期间利用迁移学习或集成学习等策略，以便利用先前模型的知识或组合多个模型以获得更好的性能。评估的 LSTM 网络使用标准指标（例如精度、召回率、F1 分数）进行测量，以确定其在现实世界条件下检测恶意软件的实际性能。

通过仔细应用基于机器学习和深度学习研究的最新学术发现的最先进方法，所提出的方法致力于提高恶意软件检测机制的效率。本文接下来的部分将比较实验、分析和评估的结果，并继续讨论对网络空间研究和实践方向的影响。

6 结果

该项目涉及机器学习算法使用 VirusShare 数据集识别恶意软件的有效性。我们投入了大量的时间和精力进行一项研究，评估不同分类器和深度学习模型在区分健康样本和攻击性样本方面的功效。

首先，我们通过从恶意软件样本中删除不相关的特征并创建矢量化矩阵来清理数据集。例如，我们提取文件大小、API 调用和字节级信息。

接下来，我们将数据集分为训练和测试阶段，以支持模型的训练和评估。作为我们的基线模型，我们包括随机森林、支持向量机和决策树，它们都是传统的机器学习分类器。这些模型显示出非常有希望的结果，准确率达到 95.6%，表明此类模型在观察高级和已知恶意软件模式方面的效率。接下来，我们研究了深度学习架构（例如 CNN 和 LSTM）的部署，这些架构能够在恶意软件样本中表现出更复杂的模式。深度学习模型的结果良好，表明它们优于传统分类器，准确率达到 98.34% 左右。最重要的是，我们成功地执行了一系列模拟多态恶意软件和零日恶意软件进行的攻击。 DLL 模型能够稳定地识别任何看不见的恶意软件模式，这凸显了它们投入应用的良好前景。

很快，我们的研究结果证实，通过使用包括深度学习在内的尖端机器学习技术，可以开发出更精确、更有效的恶意软件检测系统。因此，所达到的 98.82% 的准确率强调了部署的基于机器学习的系统对于主动网络安全措施的适用性。

因此，我们的研究提供了有关使用机器学习检测恶意软件的深刻信息，并强调深度学习也有能力对抗不断变化的网络威胁。

7 结论和未来工作

总之，我们的研究论文 ?全面? 解释了基于机器学习的恶意软件检测和分类技术，能够使用 VirusShare 数据集提供的信息。通过严格的实验和统计分析，我们获得了令人难以置信的准确率，达到 98.82％，这再次证实了我们新开发的方法的有效性，因为它有助于识别和阻止多种类型的恶意软件病毒。

实施机器学习算法（包括通道决策树和深度模型）在发现恶意软件样本中嵌入的迹象和恶意特征方面更加强大。我们的研究表明，如果不在恶意软件检测系统中实施现代数据分析方法和深度学习技术，就不可能终止恶意软件病毒威胁。即将到来的时代提出了3D打印在医学领域的可能性引起的问题，因此，该领域存在着必须探索的机会。另一部分是开发涉及不同机器学习模型的集成学习方法，以提高准确性并针对新出现的恶意软件变体设置防御系统。此外，将 HV 与传统动态检测技术相结合将非常有利于检测多态性和新兴攻击，从而进行后续阶段的审查。

为此，XAI 技术（可解释的人工智能）的开发对于系统对模型决策的适当解释以及确保相应的网络安全专业人员信任它至关重要。随着异常检测算法的应用以及恶意软件检测领域的强化学习，可能会出现更具适应性和弹性的防御工具，以确保网络更加安全。我们在网络安全领域研究的本质是利用机器学习和大数据分析技术来支持现有的对抗新兴网络威胁的努力。面对网络威胁形势的变化，面临安全挑战的组织必须寻求创新的解决方案，以使其能够有效地应对异常情况。不断改进和完善我们的实践是我们的任务和使命。通过这种方式，网络安全领域的工作人员将拥有最先进的工具和方法。

、

over