Conservative Novelty Synthesizing Network forMalware Recognition in an Open-Set Scenario

最新推荐文章于 2023-03-15 23:16:16 发布

appron

最新推荐文章于 2023-03-15 23:16:16 发布

阅读量301

点赞数

分类专栏：开放集识别文章标签：网络人工智能 big data

本文链接：https://blog.csdn.net/pingguolou/article/details/124906863

版权

开放集识别专栏收录该内容

58 篇文章 86 订阅

订阅专栏

Conservative Novelty Synthesizing Network for Malware Recognition in an Open-Set Scenario

摘要：

问题背景：我们研究了对已知和新的未知恶意软件家族进行恶意软件识别的挑战性任务，称为恶意软件开放集识别（MOSR）。以前的工作通常假设分类器在密集的情况下知道恶意软件家族，即测试家族是子集或最多与训练家族相同。然而，在现实世界的应用中经常出现新的未知恶意软件家族，因此需要在开放集场景中识别恶意软件实例，即一些未知的家族也包括在测试集中，这在网络安全领域很少被彻底研究。
问题：MOSR的一个实际解决方案可以考虑通过一个单一的分类器（如神经网络）从已知家族的预测概率分布的方差来联合分类已知和检测未知的恶意软件家族。然而，传统的训练有素的分类器通常倾向于在输出中获得过高的识别概率，特别是当实例特征分布彼此相似时，例如，未知与已知的恶意软件家族，因此，极大地降低了对新型未知恶意软件家族的识别。
方案：为了解决这个问题并构建一个适用的MOSR系统，我们提出了一个新的模型，可以保守地合成恶意软件实例来模仿未知的恶意软件家族，并支持更强大的分类器的训练。更具体地说，我们在生成式对抗网络的基础上，探索并获得接近已知家族的边缘恶意软件实例，同时落入模仿的未知家族，以指导分类器降低和平坦未知家族的识别概率，并相对提高已知家族的识别概率，从而纠正分类和检测的性能。我们进一步构建了一个涉及分类、合成和矫正的合作训练方案，以促进训练并共同提高模型性能。此外，我们还建立了一个新的大型恶意软件数据集，名为MAL-100，以填补缺乏大型开放性恶意软件基准数据集的空白。
结果：在两个广泛使用的恶意软件数据集和我们的MAL-100上的实验结果证明了我们的模型与其他代表性方法相比的有效性。

引言：

恶意软件识别背景：恶意软件，又称恶意软件，包括计算机病毒、间谍软件、特洛伊木马、蠕虫等，会对各种设备和公共网络造成严重破坏，并导致网络安全的许多问题。近年来，恶意软件的实例不断增加，带来了许多挑战[1]，[2]。恶意软件识别的目的是将众多的恶意软件实例分类为不同的家族，即一组具有类似攻击技术的恶意软件实例，然后可以进行进一步的调查和预防措施。以前的恶意软件识别工作通常持有一个相对较强的假设，即所有的恶意软件家族对识别系统来说都是已知的，这意味着测试实例与训练实例在近似的情况下属于同一家族。这种设定是可以部分接受的，因为一方面，恶意软件家族在一定时期内是相对稳定的，另一方面，从整个网络中完全收集所有的恶意软件家族是不可能的。因此，在过去的几年里，封闭式的恶意软件识别已经被广泛研究[3]-[6]。
开放集恶意软件识别背景：然而，随着近年来网络应用的普及，越来越多的恶意软件攻击者不断发布属于各种已知家族的恶意软件实例和更多新的未知家族。正如NortonLifeLock（以前称为赛门铁克）[7]所指出的，每年有超过3.17亿个新的恶意软件实例被发现，其中许多不属于我们以前已经知道的任何恶意软件家族。这些新的未知恶意软件家族的实例在一些特征上有所不同，如统计特征、攻击技术等。在这种情况下，传统的恶意软件识别系统无法处理识别任务，不仅需要对已知家族进行分类，还需要同时检测新的未知家族。如图1所示，已知恶意软件家族的实例，如 "Neshta"、"Ramnit "和 "Adposhel"，在分类器的训练阶段被使用。在测试或推理过程中，分类器首先要正确区分一个实例是否来自这些已知的家族，然后尽可能准确地将其分类到一个特定的已知家族。这项任务可以被视为恶意软件开放集识别（MOSR），其中 "开放集 "的概念在计算机视觉领域的一些最新作品中被注意到[8]。
问题：作为一个重要而实用的现实世界应用，网络安全领域很少对开放场景下的恶意软件识别进行研究，这阻碍了恶意软件识别系统的进一步发展。受计算机视觉领域的一些工作的启发，开放场景的图像识别可以通过单一的分类器（如神经网络）实现，并由网络输出的方差决定。例如，多类分类网络的输出softmax[9]可以代表已知家族上的预测识别概率分布。因此，已知类的分类可以由预测的识别概率的最大维度值决定，而新的未知类的检测可以由与所有维度值比较的阈值概率决定，也就是说，如果一个测试实例的所有维度值都小于阈值概率，那么这个实例就被认为是来自一个新的未知类。这样的识别框架在计算机视觉领域运作良好[10]-[13]。然而，恶意软件实例特征的差异远远小于图像的差异，因此会导致不同恶意软件家族之间的许多重叠。这种差异可能使该框架不适用于MOSR任务，因为对已知和未知恶意软件家族的所有恶意软件实例的预测识别概率可能趋于过高。
解决方案：为了处理这些问题并构建一个适用的MOSR系统，我们提出了保守的新颖性合成网络（CNSNet）来协调和支持恶意软件识别系统，以适应开放场景。具体来说，我们利用生成对抗网络（GANs）来合成几个边缘的恶意软件实例，这些实例与已知的家族接近，但不属于任何家族。然后，这些合成的实例被分配为模拟新的未知恶意软件家族，并隐含地修正分类器，使其对已知家族相对更敏感，同时大大抑制对未知家族的敏感性。这种矫正可以通过对合成实例的两个正则器进行约束来实现，这两个正则器分别考虑降低和平坦全局的识别概率（整体未知概率平坦化）和最小化局部的批级识别概率（特定的已知家族排除）。因此，我们的模型能够更好地区分已知和未知的恶意软件家族，提高分类和检测性能。为了在一个统一的框架内共同优化分类、合成和矫正，我们进一步构建了一个合作训练方案，使每个组件相互补充，交替改进。
数据与实验结果：此外，为了验证我们的模型在总体上运行良好，我们还付出了巨大的努力，建立并提出了一个新的大规模恶意软件数据集，其中包含100个恶意软件家族的5万多个恶意软件实例，称为MAL-100，以填补在恶意软件识别领域缺乏大型恶意软件开放基准数据集的空白。实验结果验证了我们提出的方法的有效性，并证明了我们提出的大规模恶意软件数据集的灵活性。
主要贡献：综上所述，我们的贡献有四个方面。1）我们提出了第一个在开放场景下的恶意软件识别的正式调查。2）我们提出了一个新的MOSR框架，可以保守地合成边缘恶意软件实例，以模仿新的未知家族，并共同提高分类和检测的性能。3）我们提出了一个合作训练方案，客观上统一了系统，促进了训练过程。4）我们提出了一个大规模的恶意软件基准数据集，即MAL-100，以补充开放场景下的恶意软件识别，这可以不断促进未来研究。

提出方法

在本节中，我们首先给出MOSR的正式问题定义。接下来，我们将详细介绍我们提出的方法和配方。更具体地说，如图3所示，基于GANs的合成器被训练来合成几个边缘的恶意软件实例，以模仿新的未知恶意软件家族并支持分类器的训练。分类器的条件是降低和拉平未知家族的识别概率，相对提高已知家族的识别概率，以纠正分类和检测的性能。综合网络和分类网络被联合优化，以交替地改善彼此。

A.问题定义：一个可以同时对已知类和未知类进行分类的分类器

B.方法

分类器:应该指出的是，（3）的（ii）和（iii）项之间似乎有冲突，因为前者将平面识别概率规范化为均匀分布，而后者则将少数概率规范化为最小。然而，在我们的方法中，第（ii）项主要作为一个全局条件进行优化，以使分类器不将合成的恶意软件实例归入任何已知的家庭。而条款（iii）作为一个局部条件，例如在局部小批处理期间，要进行优化，以使分类器确切地将这些实例排除在几个特定的已知家族之外。这两个术语共同发挥作用，使分类器对检测新的未知恶意软件家族更加敏感。

2.合成网络。与几个生成模型不同的是，在传统的分类问题中，合成模拟实例以增加数据，或在零/少量学习问题中合成未见过的类的实例[36]，[37]，前者只需要在已知的类上进行合成，后者可以提供一些未知类的辅助信息（例如，可见和未见过的类共享的语义描述），合成新型未知恶意软件系列的条件相对有限。首先，没有未知恶意软件家族的额外辅助信息，这使得合成过程没有监督。其次，合成的新型未知恶意软件家族应该与已知的不同，但同时又不能太不同。从理论上讲，任何与已知家族分布不同的实例都可以被视为来自新型未知家族。因此，一个直接的规则是，从与已知分布不同的实例中取样。然而，这条规则并不实用，因为我们不可能对实例特征空间中的每一个不同的分布进行采样。进一步受到SVM的支持向量[38]，[39]的启发，边缘实例通常具有更好的辨别特性，我们可以有一个更保守的策略，合成几个边缘的恶意软件实例，接近已知的家庭，而不属于任何家庭，作为模仿的新的未知恶意软件家庭。受GANs[40]的启发，涉及到两个神经网络在零和游戏框架中相互竞争，以实现数据生成的能力，而不明确地对概率密度进行建模。我们还应用GANs框架来合成新的未知家族的边缘恶意软件实例。在GANs网络中，生成器G被用来从先验分布（如高斯N）中抽取潜变量z作为输入，并生成输出G（z）。同时，一个判别器D被训练来区分输入x是否来自目标数据分布，方法是将x映射到[0,1]的概率范围。生成器的目的是在冻结D时尽可能准确地合成模拟实例。

我们提出的方法中包括两个主要部分。1）分类网络，旨在为已知的恶意软件家族产生准确的概率分布，为未知的恶意软件家族产生平坦和低的概率分布；2）新奇性合成网络，旨在合成已知家族的边缘恶意软件实例。一方面，训练有素的分类网络可以帮助迫使新奇性合成网络将恶意软件实例从与已知家族的相似性合成为不同，因此，可以调整天真的GANs属性。另一方面，训练有素的新奇性合成网络也可以支持分类网络的训练，合成的恶意软件实例可以模仿新的未知恶意软件家族。因此，这两个组件可以相互补充，提高整体性能。为了利用这些特性并促进训练，我们构建了一个合作训练方案，将系统目标统一为

其中，术语（i）-（iii）构成分类网络的监督，术语（iii）和（iv）构成新颖性综合网络的监督。术语(ii)和(iii)是分类网络和综合网络共同使用的整顿规范器。为了合作优化（8），我们构建了一个备用的更新算法。具体来说，我们维护一个参数集{ωd, ωg, ωc}，该参数集对应于分类器网络和新异性合成网络的判别器D和生成器G。与GANs的训练过程类似，我们依次更新每个参数，同时冻结其他两个参数。详细的训练过程在算法1中展示。

3.检测方法

实验结果

appron

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Conservative Novelty Synthesizing Network forMalware Recognition in an Open-Set Scenario

Conservative Novelty Synthesizing Network for Malware Recognition in an Open-Set Scenario摘要：问题背景：我们研究了对已知和新的未知恶意软件家族进行恶意软件识别的挑战性任务，称为恶意软件开放集识别（MOSR）。以前的工作通常假设分类器在密集的情况下知道恶意软件家族，即测试家族是子集或最多与训练家族相同。然而，在现实世界的应用中经常出现新的未知恶意软件家族，因此需要在开放集场景中识别恶意软件实例，即一些未知的家族也
复制链接

扫一扫