Deep learning methods in network intrusion detection: A survey and an objective comparison翻译二(4-6节)

4.经验性比较

4.1实验概述:模型、数据集和评价指标

在本文回顾的文献中,入侵检测问题经常被表述为一个分类问题。为了进行实证分析,我们从模型分类学的不同类别中选择了四个神经网络分类器(图2),并在四个流行的入侵检测数据集上对它们进行了训练和评估。对于每个深度学习模型类型,实现了一个浅层模型(单隐藏层)和一个深度模型(多隐藏层)。选择这些模型是因为它们是入侵检测研究文献中经常使用的深度学习模型的代表(适用性),并且它们代表了监督、半监督和顺序类型的模型(多样性和覆盖面)。以下模型被选作实证比较。

  1. 人工神经网络:前馈式(ANN)。前馈神经网络在许多领域的分类任务中产生了最先进的性能,它是深度学习文献中的关键模型之一(LeCun等人,2015)。对于网络入侵检测,自KDD 99竞赛以来,浅层和深层前馈神经网络(DNN)都被使用(Ingre和Yadav,2015;Vinayakumar等人,2019)。因此,前馈神经网络被选为在入侵检测数据集上进行实验的主要模型。
  2. 自动编码器+人工神经网络(AE + ANN)。在这个半监督的学习机制中,首先用未标记的数据(训练集的一部分)训练一个具有对称编码器和解码器结构的自动编码器。这个无监督的训练阶段有望从数据中获取特征转换。接下来,训练集的标记数据用自动编码器进行转换,最后编码层的输出(特征转换)被输入到监督分类模型。在我们的实验中,在自动编码器的最后编码层5之后,一个前馈神经网络(ANN)作为分类模型。Shone等人(2018)和Javaid等人(2016)已经探讨了使用自动编码器进行网络入侵检测的半监督方法。
  3. 深度信念网络初始化+人工神经网络(DBN + ANN)。在这种半监督的方法中,首先用未标记的数据(训练集的一部分)训练一个深度信念网络(DBN)。接下来,由DBN学到的权重被用作训练相同结构的神经网络(DNN)的初始权重。然后用可用的标记数据以监督的方式训练神经网络。这是一种与自动编码器不同的半监督学习方法;它采用了权重转移而不是数据转换(相当于权重固定了)(Erhan等人,2010)。Alom等人(2015)和Alrawashdeh和Purdy(2016)探讨了使用DBNs进行网络入侵检测的半监督方法。
  4. 长短时记忆网络(LSTM)。网络流量具有顺序性,这使得LSTM等递归神经网络成为网络入侵检测问题的良好候选者(Bontemps等人,2017;Diro和Chilamkurti,2018)。在我们的实验中,LSTM模型的输入序列是通过对数据集的相邻流量或记录进行分组而形成的,因为它们发生在一个时间序列中。该模型的输出是一个标签序列;输入序列中的每个流有一个标签。我们期望LSTM网络能够捕捉到相邻流量之间的时间关系。
  5. 随机森林(RF)。除了4个神经网络模型外,还对数据集进行了随机森林的训练和评估。它代表了经典的机器学习类别的模型,在入侵检测文献中普遍使用。它为深度学习模型的比较提供了一个基准。

我们使用了两个传统的数据集(KDD 99, NSL-KDD)和两个现代数据集(CIC-IDS2017, CIC-IDS2018)来训练和测试机器学习模型。实证评估中使用的数据集的描述在第2.2节中给出。每个模型的评估都计算了以下指标。这些指标的定义在第2.3节中给出。

  • - 每类指标:准确性、精确性、召回率、误报率、假阴性率、F1得分。这些每类指标可在结果库中找到。
  • - 总体准确性。
  • - 精度、误报率、假阴率、F1得分的加权宏观平均数。
  • - 训练时间:训练所需迭代epoch的次数和达到模型所达到的平均准确度所需的时间(历时到收敛)。
  • - 测试或推理时间:对数据集中固定大小的一批100万个实例进行分类所需的时间。

4.2实验的细节

在进行这项实证分析的实验时,我们高度重视结果的可重复性。为此,我们严格遵循NeurIPS 2019会议的可重复性检查表(Pineau, 2019)。实验的相关细节将在以下几个小节中概述。

4.2.1数据预处理

对数据集进行了以下预处理步骤。

  • - 删除无效的流量记录:IDS 2017和IDS 2018数据集包含在字段中具有无效值的流量记录(例如:缺失值,数字字段中的字符串)。这类记录被从两个数据集中删除(IDS 2017数据集为2867条,IDS 2018数据集为95,819条)。
  • - 改变类标签以制定5类问题:KDD 99和NSL-KDD数据集包含38种攻击类型(类标签),它们分为4个攻击类别(DOS、R2L、U2R和探测)。由于我们正在为5类问题开发模型,38个类标签被映射到4个攻击类中。加上 "正常"(良性)标签,这就产生了5个分类标签。
  • - 分类特征的独热编码:KDD 99和NSLKDD数据集包含3个非数字(分类)特征:protocol_ type, service and flag.。这3个特征被独热编码,产生了84个编码特征。
  • - 缩放特征。所有4个数据集的所有特征都通过标准归一化进行缩放。
  • - 为LSTM模型准备序列:递归神经网络的输入是实例的序列。对于LSTM模型,序列是通过将一些连续的流量记录(在时间上相邻)分组而形成。然后,序列的长度成为模型的一个超参数。每个流动记录的类别标签被附加到序列中的各个记录上(即输入和输出是同步的)。所有的序列都有一个固定的长度。

4.2.2样本数据划分和超参数调整

在分配用于训练、超参数调整和模型评估的数据时,采用了3-way holdout方法。

  • -在KDD 99和NSL-KDD数据集中,有单独的测试集(在NSL-KDD数据集中,测试被命名为KDDTest+)。其余的数据集被分成两组:80%用于训练,20%用于验证。分割是以分层次的方式进行的,以保持原有的类别比例。
  • - 在IDS 2017和IDS 2018的数据集中,没有单独的测试集。该数据集被分成三组:60%用于训练,20%用于验证,20%用于测试。分割是以分层次的方式进行的,以保持原有的类别比例。

超参数的调整。每个模型在每个数据集上的最终超参数集是通过参数空间的随机搜索找到的。我们使用入侵检测文献中报告的超参数值作为指导,定义随机搜索的值范围。表9显示了超参数随机搜索中使用的数值范围。在验证集上具有最高加权大平均F1得分的配置被选为最终的超参数配置(表10)。

为了尽量减少神经网络模型的过拟合,进行了随机失活、批量规范化和提前停止训练。在每个模型-数据集的组合中,给出最高加权宏观平均F1得分的超参数配置被选为获胜模型。

4.2.3最佳超参数配置的实验

表10中列出了从超参数调整过程中选出的最佳性能(验证集上最高的加权宏观平均F1得分)的超参数配置。以下是用这些超参数配置对8个神经网络(浅层和深层ANN、AE+ANN、DBN+ANN、LSTM)和随机森林模型进行的实验。

  • - 验证基准实现和比较模型性能。在训练集上训练模型(使用最佳的超参数配置),并在四个数据集(KDD 99、NSL-KDD、IDS 2017;IDS 2018)的测试集上进行评估。这种训练和测试过程对每个模型-数据集组合重复5次,以观察由模型权重随机初始化引起的任何性能差异,并验证所选超参数配置的稳定性。对36个模型-数据集组合的性能指标进行了记录,报告了指标的加权宏观平均值(5次运行的平均值和标准差)。作为验证我们基准实施的一种形式,指标与文献中报告的结果进行了比较。我们还对不同模型在不同指标上的表现进行了一般性比较。
  • - 衡量模型训练和测试(推理)时间。对于每个模型和数据集的组合,之前实验的平均测试集准确度被设定为样本外目标指标。模型被训练,直到它们达到目标精度,并记录训练次数和所需时间。这个过程对每个模型-数据集组合重复3次,以获得结果的分布(平均结果被报告)。在半监督模型的情况下,自动编码器和深度信念被预先训练了固定的历时数(10),然后再进行微调,直到收敛到测试集的目标精度。由于随机森林不是通过迭代算法训练的,它的训练时间只是用分钟来衡量。测试(推理)时间被测量为从数据集中对固定大小的100万个实例进行分类所需的时间(以分钟为单位)(对一个分布重复5次;报告了平均值和标准差)。
  • -将半监督的方法(AE+ANN和DBN+ANN模型)与监督的前馈神经网络(ANN)进行比较。NSL-KDD和IDS 2017数据集的训练集以分层的方式分成75%-25%。前75%(去除标签)用于无监督训练阶段(自动编码器和深度信念网络预训练),后25%用于有监督训练阶段(微调)。然后将这些模型与只对第二部分25%的分割进行训练(监督)的ANN模型进行比较。因此,半监督模型在无监督预训练的形式下比ANN模型有75%的数据优势。第二个实验遵循同样的过程,对数据集进行50%的无标记和50%的标记分割。一个隐藏层有64个节点的浅层网络结构被用于训练所有的模型。
  • - 神经网络架构搜索。最初的结果集显示,前馈神经网络(ANN)在所有四个数据集上产生了更好的评价指标。因此,设计了一组实验,以确定不同的ANN架构如何影响入侵检测任务的性能。测试了三种类型的架构。1)浅而宽的架构(3个隐藏层,第一隐藏层中有多达3000个节点)。2)深层架构,每层的节点数量相同(最多10个隐藏层,每层有64个节点)。3) 缩小的深层架构(最多10个隐藏层,第一隐藏层有800个节点,在最后一个隐藏层缩小到16个节点)。表B.19、B.20和B.21中给出了确切的网络结构和模型中的参数数量。这些模型是在三个数据集上训练和评估的。NSL-KDD和IDS 2017和IDS 2018。

  • - 测量训练集大小对ANN性能的影响。网络入侵检测是一个可以获得大量数据的领域,通过模拟和记录真实网络中的数据包流。为了了解当更多的数据可用于训练时,ANN提高性能的能力,我们进行了以下实验。NSL-KDD、IDS 2017和IDS 2018数据集的训练集以分层的方式(保留类的比例)分成10%、20%、...100%的子集。在原始训练集的这些子集(10%-100%)上训练ANN模型(浅层:隐藏层的64个节点),并在测试集上进行评估。

4.2.4计算环境

实验是在几台使用和不使用GPU加速的PC上进行的。时间测量(训练和测试时间)是在一台具有以下规格的机器上获得的。

  • - 处理器:AMD Ryzen 9 3900X CPU @ 3.80 GHz, 12-cores (24 threads)
  •  - 内存(RAM):64GB 
  • - GPU:2 x Nvidia GeForce RTX 2080 Ti (11 GB) GPU
  •  - 操作系统:Ubuntu 18.04

4.3结果与分析

验证基准实施。36个模型-数据集(表10)组合的评估结果与最近文献中报告的最佳结果非常接近。表B.14、B.15、B.16和B.17中给出了全部结果,表11中给出了与先前工作的结果比较。Vinayakumar等人(2019年)提出的深度前馈神经网络在KDD 99、NSL-KD和IDS 2017数据集上的结果与我们的工作相似(在某些指标上相差±3%)。Ferrag等人(2020)在IDS 2018数据集上的深度神经网络套装(ANN、AE、DBN)也得到了类似的结果(±2.5%的差异)。在其他模型-数据集组合中,我们实验的评价指标与文献中报告的数值在同一范围内。这种比较验证了我们的基准实现的正确性,也验证了机器学习模型在数据集上得到了良好的训练。必须指出的是,直接比较往往是困难的,因为许多论文没有提供足够的细节,说明对数据集进行的预处理步骤(例如:在测试集中删除训练集中不存在的新攻击类型,从而得到更乐观的结果),以及评估指标的确切类型(例如:微平均与加权微平均精度,F1分数等)。由于我们研究中的预处理步骤和评估指标在我们研究的所有模型评估中都是统一的,所以结果的汇编允许在入侵检测任务中对所选的深度学习模型进行公平的比较。在IDS 2017和IDS 2018数据集上训练的模型给出的准确值在98.5%-99.8%之间,而在NSL-KDD上训练的模型给出的准确数字在75.5%-77.5%之间。这种巨大的差异是由于NSLKDD的测试集是由一组21个机器学习模型持续错误分类的样本创建的(具有高难度的样本。Tavallaee等人(2009))。

比较模型的性能。图3显示了模型在每个数据集上的准确性、精确度和F1分数,图4显示了假阳性和假阴性率。结果显示,所有训练有素的模型一般都能胜任这些数据集上的入侵检测分类任务。在每个数据集上,各模型之间的评价指标差异很小。为了检查指标变化的统计学意义,我们对所有模型在四个数据集上的准确率进行了弗里德曼检验和内曼伊检验。这是两个推荐的统计测试,用于比较多个分类器在多个数据集上的性能(Demar, 2006)。弗里德曼检验得出的P值为0.0120,这导致拒绝了所有模型具有同等准确性的无效假设(显著性阈值为0.05)。(翻译注:说明假设所有的方法都具有同等准确性是不对的)。因此,做了事后的成对多重比较Nemenyi检验,其无效假设是每对模型的性能相等(p值见表B.18)。只有一种情况下拒绝了无效假设,即当深层ANN模型与深层AE模型比较时(P值低于0.05显著性阈值)。这意味着深度ANN模型在统计学意义上比深度AE模型表现得更好。在所有其他的模型对的比较中,不能拒绝无效假设,这表明它们的性能差异不能被断言具有统计学意义。在对假阴性率和F1分数进行统计检验时,也观察到类似的结果。值得注意的是,在任何一个数据集上,半监督模型在任何一个指标上都没有超过其他模型(进行了一个单独的实验来比较ANN和半监督模型,其结果将在后面讨论)。随机森林(RF)在IDS 2017和IDS 2018数据集上给出了高准确率和F1分数。在入侵检测文献中,RF一直是一个流行的经典机器学习模型。我们的研究结果表明,RF在最近的入侵检测数据集上表现良好,它是一个合适的模型,可以在未来的评估中与其他机器学习模型一起考虑。

LSTM模型的性能。评估LSTM网络用于入侵检测任务的目的是研究序列模型在流量中捕获可能改善分类的时间模式的能力。实验结果(图3和图4以及表B.18中的显著性测试结果)表明,在这些数据集上训练的LSTM模型并不优于其他模型。对于那些性质上与时间相关的攻击类别,如拒绝服务和暴力式攻击,它们产生了很高的假阴性率。增加LSTM的序列长度(回看时间步骤的数量)并没有改善评估指标。其原因可能是,一个单一的流,也就是相关数据包的窗口,可以捕捉到流特征中重要的数据包级时间依赖性,如到达率、流中的数据包或字节数等。流量之间的关系可能不包含像LSTM网络这样的序列模型可以学习的有用的依赖关系。序列模型在入侵检测任务中的能力还需要进一步研究。

训练和推理的计算成本。表B.14、B.15、B.16和B.17的最后三栏给出了模型达到平均目标精度所需的训练历时和时间(分钟),以及对一批100万实例进行分类的测试(推理)时间,并在图5中说明了NSL-KDD和IDS 2017数据集的情况。在四个数据集中,前馈神经网络(ANN)的训练时间最快。半监督模型(AE+ANN和DBN+ANN)的训练速度普遍较慢(比ANN慢1.5倍到10倍),原因是计算成本较高的无监督预训练阶段(IDS 2018数据集上有10个历时,其他数据集上有50个历时)。相比之下,与其他神经网络模型相比,ANNs只需少量的训练epochs就能收敛到其平均精度。对于推理(对实例进行分类),ANN在所有的数据集上都很快,AE+ANN、LSTM和RF模型是最慢的。这可能是由于在AE + ANN模型中,特征必须由编码器进行转换,而unrolled LSTM网络的模型复杂性很高。随机森林的推理时间很慢(比ANN慢5到10倍),这使得它们不适合部署在实时入侵检测系统中。

这五种模型的总体比较表明,前馈神经网络(ANNs:浅层和深层变体)在所有四个入侵检测数据集上产生了理想的评估指标(准确性、F1分数、训练和推理时间等)。随机森林显示出相当的性能,由于它们易于实现和快速训练,它们是入侵检测模型构建过程中可以考虑的合适模型(用于新数据集的初始结果,并作为更复杂模型的潜在基线)。LSTM网络和半监督模型(AE+ANN,DBN+ANN)没有显示出比ANN的改进。

将半监督方法与监督的前馈神经网络(ANN)进行比较。为了验证最初的评估结果,即半监督模型(AE+ANN和DBN+ANN)没有显示出比ANN的改进,又进行了一组实验,其中半监督模型是用原始数据集75%大小的数据优势(未标记的)进行预训练的。见第4.2.3节)。实验结果在表12中给出,并在图6中说明。在所有情况下,人工神经网络都取得了高于或类似于半监督模型的性能。进行了10倍交叉验证的t检验,以验证准确性差异的任何统计学意义(无效假设:两个比较的模型具有相同的准确性),结果在表13中给出。结果显示,要么ANN模型表现更好(拒绝了有利于ANN的无效假设),要么准确率差异不大。另一个考虑是,由于在大块数据集上进行昂贵的预训练,半监督模型的训练速度很慢(比ANN慢1.5倍到3.5倍)。图7显示了三种模型在微调阶段(预训练阶段之后)的验证误差。与其他两种方法相比,DBN+ANN模型在微调过程开始时的误差非常高,而且它的收敛速度较慢(在IDS 2017的情况下)。这表明将DBN预先训练的权重作为微调阶段的初始点并不能帮助它取得更好的性能或更快地收敛。相比之下,随机初始化的ANN模型以较低的验证损失开始,并更快地收敛到最小误差。在对数据集进行50%的无标记和50%的标记分割时,也得到了类似的结果。半监督模型没有带来比前馈神经网络更好的观察结果,这与更广泛的机器学习社区的研究趋势一致。下面一段给出了相关工作的总结。(翻译者注:1)统计特征可能并不合适自编码和深度信念网络,同时2)自编码和深度信念网络也不是非常适合做分类,3)25%有标记的数据量已经足够有监督训练了,这三点可能导致了这样的半监督并没有发挥效果甚至是反效果的原因。未来方向可以是考虑其他无监督或自监督方法,例如替换适合于分类的自监督/无监督代理任务进行预训练,或者再降低标记的比例,做成few-shot,one-shot或zero-shot。)

在无标签数据上对深度信念网络进行贪婪的分层预训练,有望为所有层学习权重,为监督下的微调步骤提供一个良好的参数空间初始点(Erhan等人,2010)。自动编码器从未标记的数据中学习非线性特征转换,然后将其输入到监督学习器中(Baldi,2012)。这些模型旨在解决训练深度架构的困难优化问题,利用丰富的未标记数据。然而,包括激活函数如整顿线性单元(ReLU:Glorot等人,2011)和缩放指数线性单元(SELU:Klambauer等人,2017)、更好的随机权重初始化方案(He等人,2015;Glorot和Bengio,2010)、批量规范化(Ioffe和Szegedy,2015)、正则化方法如辍学(Srivastava等人,2014)以及允许更长训练的高效GPU实现,都成功解决了训练深度神经网络的难题。研究人员报告说,与深度前馈神经网络(DNN)的纯监督训练相比,无监督预训练没有带来任何改进(Glorot等人,2011;Bengio等人,2013)。因此,计算成本高的无监督预训练方法,如深度信念网络和自动编码器,在很大程度上已经被有标签数据集的深度前馈神经网络的监督训练所取代,并得到转移学习的帮助。我们在入侵检测数据集上的实验结果与更广泛的机器学习界在其他任务上的上述观察一致。

神经网络架构搜索。网络结构搜索实验的结果见表B.19、B.20和B.21。在每层节点数相同(64个)的深度神经网络中(表B.20),网络的深度与三个数据集的F1分数或其他指标没有任何关联。然而,在具有缩小结构的深度网络中(表B.21),如图8所示,在IDS 2017和IDS 2018数据集上,准确性和F1-分数随着深度的增加而提高。例如,IDS 2017数据集上的F1得分从单层隐藏网络的99.15%提高到6层隐藏网络的99.61%。性能改进的统计学意义通过10倍交叉验证的配对t检验得到了验证(拒绝了两个模型具有相同准确性的无效假设,p值=6.5×10-20)。这一改进相当于将假阴性率从2248下降到820(减少63%),这对于像入侵检测这样的关键任务来说是非常重要的。浅层和宽层网络(表B.19)也产生了与深层和窄层结构非常相似的改进的评估指标。浅层和宽层模型的准确度和F1分数显示为图8中图表的最后三个数据点。这种改进可能是由于这些网络中的大量参数,这增加了它们的学习能力。然而,这也意味着训练这些大型网络在计算上非常昂贵。例如,训练表B.21中的10层网络需要15倍的时间来训练IDS 2017数据集上的单层网络。在缩小的架构中增加一层,平均增加16%的训练时间。同样,由于大量的参数,训练浅层但宽的架构需要很长的训练时间。因此,研究人员和从业人员在选择进入入侵检测系统的模型时,必须考虑准确性、模型复杂性以及训练和推理时间之间的权衡。

测量训练集的大小对ANN性能的影响。表B.22中给出了在越来越大的数据集上训练浅层ANN模型的评价结果。在NSL-KDD和IDS 2018测试集上的评价指标并没有显示出与训练集大小的相关性。这表明,NSL-KDD和IDS 2018训练集中较小的分层子集包含训练模型所需的信息,可以达到用完整数据集训练的模型的精度(翻译者注:建议增加尝试将训练集降低到0.1%,1%,2%,5%等)。它还表明,从业者可以使用大型入侵检测数据集的分层小子集,在模型构建过程中进行快速实验。IDS 2017测试集的结果表明,增加训练集的规模可以改善ANN模型的评估指标(图9)。当用完整的IDS 2017训练集训练ANN模型时,与用10%的训练集训练时相比,假阴性的数量下降了59.98%。用10倍交叉验证的配对t检验验证了性能改进的统计学意义(拒绝了两个模型具有相同准确性的无效假设,p值=8.9×10-10)。假设IDS 2017数据集是现代网络中正常和攻击流量的代表,这一结果表明,通过收集大量有代表性的网络数据,有可能为入侵检测任务建立更准确的神经网络模型。

IDS 2018数据集的结果。所有在IDS 2018数据集上训练的模型都产生了非常相似的评价指标(超过98.3%的准确率和97.8%的F1分数)。与Ferrag等人(2020)报告的结果一起,这些评价可以作为进一步研究这一大型现实数据集的基础。下面列出了可以从我们的实证研究结果中得出的结论摘要。

  • - 所有五个被评估的模型在所有四个入侵检测数据集上的表现普遍良好。考虑了性能(准确性、F1-得分、假阴性)、训练时间和推理时间,深度前馈神经网络(ANN)是基准中能力更强的模型。
  • - 半监督模型(AE+ANN,DBN+ANN)即使在有大量数据优势(未标记)的情况下,也不比其他纯监督的ANN表现更好。由于需要进行无监督的预训练,它们的训练速度也很慢。
  •  - 在流量序列上运行的LSTM网络对于高度时间相关的攻击(如拒绝服务或暴力攻击)没有显示出更好的性能。此外,由于网络的复杂性,它们的推理时间较长。
  • - 随机森林表现良好,特别是在IDS 2017和IDS 2018数据集上。然而,它们在推理过程中很慢。由于它们易于实现且训练速度快,在构建入侵检测的机器学习模型时,随机森林可以作为潜在的基线模型。
  • - 在IDS 2017和IDS 2018数据集上,缩小的深度神经网络架构(第一隐藏层中的大量节点,缩小到最后隐藏层中的少量节点)显示出比小网络(浅层和窄层)更好的性能。
  • - 通过用更多的网络流量数据对其进行训练,可以提高ANN的性能,这表明为网络入侵检测收集更多数据的努力是值得的。

5.当前研究中的问题和未来方向

我们进行的广泛的文献调查揭示了研究论文中几个共同的弱点。本节讨论了这些问题,并根据我们的观察强调了一些潜在的未来研究途径。

新方法的评估问题。许多关于入侵检测的机器学习方法的论文只使用旧的数据集(主要是KDD 99和NSL-KD)来训练和评估模型。这些数据集不能代表现代的网络流量和入侵行为,仅仅使用这些数据集来验证新方法是不够的。Sommer和Paxson(2010)已经详细讨论过这个问题。我们建议研究人员在最近的入侵检测数据集上建立和验证他们的模型(见Ring等人(2019)对入侵检测数据集的调查)。全面分析数据集、它们的差异以及了解机器学习模型如何在不同的数据集上进行归纳,将提供有用的信息,以便对新的研究做出更好的决定。文献中还缺乏在真实的攻击场景中评估入侵检测方法的报告(例如:高级持续性威胁和数据渗透),以及在这些情况下对传统的基于签名的入侵检测和机器学习方法的比较。这一领域的新成果对入侵检测和机器学习研究界很有价值。

可重复性问题。无法重现已发表的研究结果阻碍了在这些想法上的发展。在我们的调查中,我们发现许多关于入侵检测的深度学习的论文没有报告足够的方法信息来充分理解他们的工作(模型细节,对数据的操作等)。机器学习研究界已经发现了这个问题,现在高度重视可重复性(例如:Pineau(2019)的机器学习研究可重复性指南)。在我们的实证分析中,我们发现遵守这样的指南有助于进行和报告可重复的实验。我们还开源了我们的代码,这促进了透明度,并允许研究人员将其作为其工作的参考点。我们鼓励入侵检测领域的研究人员在设计和报告他们的系统和方法时考虑可重复性方面。

用于入侵检测的半监督机器学习方法。由于可以通过相对较少的努力从运行的网络中获得大量未标记的网络流量数据,利用这些未标记的数据进行入侵检测的半监督机器学习模型已被积极研究。文献中最常见的模型是自动编码器和深度信念网络。在我们的实证研究中,我们表明这些模型并不比在标记数据上以监督方式训练的前馈神经网络表现更好。这一观察结果与机器学习界的普遍趋势相一致。因此,入侵检测领域的研究人员可能会发现,在无监督和半监督的机器学习中探索新的方法会更有成效。

探索使用新型机器学习范式和方法。近年来,机器学习领域取得了许多进展,其中一些可用于解决入侵检测领域的问题。例如,转移学习方法将允许从业者下载预先训练好的神经网络入侵检测器,并使其适应新的网络环境,在新数据上进行最小的监督训练。诸如注意力机制等技术可能在检测长期攻击方面是有效的。可以采用神经结构搜索方法,为不同的入侵检测设置找到在一组指标(例如:最小的错误阴性、低模型复杂性和高推理吞吐量)下的最佳神经网络。关于可解释性机器学习的研究可用于解释入侵检测系统的分类。例如,确定流量记录或数据包集中的哪些特征对攻击检测来说是重要的(Montavon等人,2018),可以为安全分析师调查威胁事件提供有用的信息(例如:根本原因分析和分流)。在错误分类或过度拟合的情况下,这样的解释对于系统开发人员识别机器学习模型的问题或弱点(例如:对虚假特征关联的依赖。Lapuschkin等人(2019))并改进它们。

基于机器学习的开源入侵检测系统(IDS)。有几个流行的基于规则的开源IDS项目(如Zeek和Snort)为基于规则的入侵检测领域的研究和发展做出了贡献。然而,基于机器学习的IDS不存在这样的项目。带有机器学习检测器的开源IDS将允许研究人员在网络环境中快速部署IDS,并将他们的模型与基于机器学习的入侵检测器资源库进行比较。它也可能有助于促进合作,并吸引新的研究人员进入该领域。

6.总结

针对计算机网络的攻击是一个日益增长的威胁,入侵检测系统执行检测它们并提醒安全团队的关键任务。机器学习算法已经成为网络入侵检测的一个可行的选择,因为它们能够从大型数据集中学习入侵模式。在这项研究中,我们提出了关于网络入侵检测的深度学习模型这一主题的广泛文献调查的结果,以及一组实验,比较了四个关键的深度学习模型在四个入侵检测数据集上的性能。我们已经公开了实施方案和整套结果,以便研究人员可以在此基础上进行研究。

结果显示,有监督的深度前馈神经网络(ANN)在所有四个数据集的所有指标(准确性、F1-得分、假阴性、训练和推理时间)上都表现良好。两种流行的半监督学习模型,自动编码器和深度信念网络的表现并不比有监督的前馈神经网络更好。神经网络的准确性随着它们在更大的数据集上的训练而增加,这表明努力建立具有标记的良性和攻击流量的大型数据集将是一项值得的投资。

我们的调查显示了当前研究中的几个弱点,如仅在传统数据集上进行模型评估,以及模型的细节不充分导致实验和结果无法复制。在入侵检测的机器学习领域,已经提出了几个潜在的研究途径。本调查旨在为入侵检测的深度学习方法领域提供一个鸟瞰图,同时提供研究人员可以依赖的可重复的经验结果。

本研究中的一组实验的设计和进行是为了确定不同机器学习模型在入侵检测任务中的能力,并让研究人员对该领域有一个鸟瞰图。然而,由于资源限制,研究中存在一些局限性。我们只在四个数据集上评估了这些模型,这些数据集在网络流量模式和包含的攻击方面缺乏多样性。此外,基准中的所有模型都是对流量记录进行分类,而没有在数据包层面进行分析。对于未来的工作,我们计划通过在更多的大型入侵检测数据集上训练和评估这些模型来扩展该基准。其他品种的递归神经网络也将被添加到模型库中。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值