入侵检测领域数据集总结

参考文献

本文数据引用自以下文献:

Yang, Zhen, et al. “A systematic literature review of methods and datasets for anomaly-based network intrusion detection.” Computers & Security (2022): 102675.

名词含义

  • emulated:表示在实验环境下生成的网络流量
  • real:在真实场景下捕捉的网络流量

数据集后括号内值依次对应:

  1. 数据集发表时间
  2. 数据集为模拟 or 真实
  3. 数据集数据总量
  4. 是否为带标记数据
  5. 数据总类别

KDD99(1999 / emulated / 5,00,000 / yes / 4)

KDD99数据集由 Lee 和 Stolfo (2000) 从 DARPA 网络数据集文件创建。该数据集包含七周的网络流量,大约包含 490 万条记录 。攻击类型分为:(1)用户到root(U2R); (2)远程到本地(R2L); (3) 探查; (4) DoS。每个实例由三个类别的 41 个特征表示:(1)基本; (二)流量; (3) 内容。基本特征是从 TCP/IP 连接中提取的。流量特征分为具有相同主机特征或相同服务特征的流量特征。内容特征与数据部分的可疑行为有关。KDD99是用于评估入侵检测模型的最广泛的数据集。

数据集链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

NSL-KDD(2009 / emulated / 148,517 / yes / 4)

NSL-KDD用于解决 KDD99 数据集的一些固有问题。虽然,这个新版本的 KDD 数据集仍然存在 Tavallaee 等人讨论的一些问题(2009)并且可能不是现有真实网络的完美代表,由于缺乏基于网络的IDS的公共数据集,因此它仍然可以用作有效的基准数据集,以帮助研究人员比较不同的入侵检测方法。此外,NSL-KDD 训练和测试集中的记录数量是合理的。这一优势使得在整个集合上运行实验而不需要随机选择一小部分是负担得起的。因此,不同研究工作的评价结果​​将具有一致性和可比性。

数据集链接:https://www.unb.ca/cic/datasets/nsl.html

UNSW-NB15(2015 / emulated / 2,540,044 / yes / 9)

UNSW-NB15数据集由澳大利亚网络安全中心的网络靶场实验室创建。由于其各种新颖的攻击方式,它被广泛使用。攻击类型包括 Fuzzer、Analysis、Backdoor、DoS、Exploits、Generic、Reconnaissance、Shellcode 和 Worms。它有一个包含 82,332 条记录的训练集和一个包含 175,341 条记录的测试集。

数据集链接:https://cloudstor.aarnet.edu.au/plus/index.php/s/2DhnLGDdEECo4ys?path=2FUNSW-NB1520-20CSV20Files

CICIDS2017(2017 / emulated / 2,830,743 / yes / 7)

CICIDS2017数据集包含良性和常见的攻击,包括源数据 (PCAP) 和基于时间戳、源和目标 IP、源和目标端口、协议和攻击令牌流的网络流量分析结果 (CSV 文件)。研究人员使用 B-Profile 系统 (Sharafaldin, et al. 2016) 分析人类交互的抽象行为并生成良性背景流量。该数据集包括基于 HTTP、HTTPS、FTP、SSH 和电子邮件协议的 25 个用户的抽象行为。暴力破解攻击包括 FTP、SSH、DoS、Heartbleed、Web 攻击、渗透、僵尸网络和 DDoS。

数据集链接:https://www.unb.ca/cic/datasets/ids-2017.html

CICDDoS2019(2019 / emulated / huge / yes / 11)

CICDoS2019数据集包含最新的 DDoS 攻击,与真实世界的数据相似。它包括使用 CICFLOWMeter-V3 进行网络流量分析的结果,其中包含基于时间戳源的令牌流,以及目标 IPS 源和端口协议和攻击。
数据集链接:https://www.unb.ca/cic/datasets/ddos-2019.html

Kyoto 2006+(2006 / real / unknown / yes / unknown)

Kyoto 2006+数据集是一个公开可用的真实网络流量蜜罐数据集,仅包含少量和小范围的真实、正常的用户行为。研究人员将基于数据包的流量转换为一种称为会话的新格式。每个会话有 24 个属性,其中 14 个是受 KDD CUP 99 数据集启发的统计信息特征,其余 10 个属性是典型的基于流量的属性,例如 IP 地址(匿名)、端口和持续时间。这些数据是在三年内收集的,包括大约 9300 万次会话。

数据集链接:http://www.takakura.com/Kyoto_data/

NDSec-1(2016 / emulated / huge / yes / 8)

NDSec-1数据集包含研究人员从网络设施合成的网络攻击的跟踪和日志文件。它是公开可用的,并于 2016 年以基于数据包的格式捕获。它包含额外的系统日志和 Windows 事件日志信息。攻击组合包括僵尸网络、暴力破解(针对 FTP、HTTP 和 SSH)、DoS(HTTP、SYN 和 UDP 泛洪)、漏洞利用、端口扫描、欺骗和 XSS/SQL 注入。

数据集链接:https://www2.hs-fulda.de/NDSec/NDSec-1/Files/

CTU-13(2014 / real / huge / yes / 7)

CTU-13数据集于 2013 年捕获,提供数据包、单向流和双向流格式。在一个大学网络中捕获,它的 13 个场景包括不同的僵尸网络攻击。网站上提供了有关受感染主机的更多信息。3 流量分三个阶段标记:1) 所有进出受感染主机的流量都被标记为僵尸网络; 2) 匹配特定过滤器的流量被标记为正常; 3)剩余流量被标记为背景。因此,后台流量可能是正常的或恶意的。

数据集链接:http://mcfp.weebly.com/

BoT-IoT(2019 / real / 73,360,900 / yes / 2)

BoT-IoT数据集包含超过 7200 万条记录,包括 DDoS、DoS、OS、服务扫描、键盘记录和数据泄露攻击。 Node-red 工具用于模拟物联网设备的网络行为。 MQTT 是一种轻量级通信协议,用于链接机器对机器 (M2M) 通信。测试平台物联网场景是气象站、智能冰箱、运动激活灯、远程激活车库门和智能恒温器。

数据集链接:https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-NB15-Datasets/bot_iot.php

IoT-23(2020 / real / unknown / yes / 20)

IoT-23数据集由 23 个物联网流量的网络捕获(称为场景)组成,包括来自受感染物联网设备的 20 个(PCAP 文件)和三个真实的物联网网络流量。 Raspberry Pi 恶意软件在每个恶意场景中使用多种协议并执行不同的操作来执行。良性场景的网络流量捕获来自三个真实物联网设备的网络流量:飞利浦 HUE 智能 LED 灯、亚马逊 Echo 家庭智能个人助理和尚飞智能门锁。恶意和良性场景都在具有无限制互联网连接的受控网络环境中运行,就像任何真正的物联网设备一样。

数据集链接:https://mcfp.felk.cvut.cz/publicDatasets/IoT-23-Dataset/iot_23_datasets_small.tar.gz

ICML-09(2009 / real / 2,400,000 / yes / 1)

数据集链接:http://www.sysnet.ucsd.edu/projects/url/

CDX(2009 / real / 5771 / yes / 2)

数据集链接:https://www.usma.edu/centers-and-research/cyber-research-center/data-sets

ISOT Botnet(2010 / real / 1,675,424 / yes /unknown)

数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/botnet-ransomware/index.php

ISCX-IDS(2012 / real / 2,450,324 / yes / unknown)

数据集链接:https://www.unb.ca/cic/datasets/ids.html

Botnet-2014(2014 / real / 283,770 / yes / 16)

数据集链接:https://www.unb.ca/cic/datasets/botnet.html

CIDDS-001(2017 / emulated / 31,959,267 / yes / 6)

数据集链接:http://www.hs-coburg.de/cidds

CIDDS-002(2017 / emulated / 16,161,183 / yes / 5)

数据集链接:http://www.hs-coburg.de/cidds

TRAbID(2017 / emulated / huge / yes / 2)

数据集链接:https://secplab.ppgia.pucpr.br/?q=trabid

ISOT HTTP Botnet(2017 / emulated / huge / yes / 9)

数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/botnet-ransomware/index.php

ISOT CID(2018 / real / 36,938,985 / yes / 18)

数据集链接:https://www.uvic.ca/engineering/ece/isot/datasets/cloud-security/index.php

InSDN(2020 / real / unknown / yes / 20)

数据集链接:http://aseados.ucd.ie/?p=177

CIRA-CIC-DoHBrw 2020(2020 / emulated / 1,185,286 / yes / 3)

数据集链接:https://www.unb.ca/cic/datasets/dohbrw-2020.html

OPCUA(2020 / emulated / 107,634 / yes / 3)

数据集链接:https://digi2-feup.github.io/OPCUADataset/

待补充…

  • 44
    点赞
  • 192
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: kdd-cup99网络入侵检测数据集是一个用于网络安全领域数据集,其中包含了多种网络入侵攻击类型的数据。对于这个数据集分类,可以使用机器学习算法进行分类,例如支持向量机、决策树、随机森林等。分类的目的是将正常的网络流量和恶意的网络流量区分开来,以便于网络安全人员进行有效的防御和应对。同时,对于不同类型的网络入侵攻击,也可以使用不同的分类算法进行分类,以提高分类的准确率和效率。 ### 回答2: KDD Cup 99数据集是一个用于网络入侵检测数据集,其中包含了网络流量的数据。对于这个数据集分类,主要可以分为四个类别:正常流量、DoS攻击、U2R(用户到根)攻击和R2L(远程到本地)攻击。 正常流量是指用户正常访问网络时产生的流量,其特征通常是数据包数较少,数据包大小较小,流量波动较小,访问的目的性强。 DoS攻击指的是拒绝服务攻击,攻击者通过发送大量的恶意数据包,来耗尽系统资源,导致正常用户无法正常访问系统。DoS攻击的特征是数据包数非常大,数据包大小较小,流量波动较大,访问的目的性较弱。 U2R攻击指的是用户到根攻击,攻击者通过获取系统权限来进行恶意行为。U2R攻击的特征是数据包数较少,数据包大小较大,流量波动较小,访问的目的性强。 R2L攻击指的是远程到本地攻击,攻击者通过获取某个远程系统的权限,来进入本地系统进行恶意行为。R2L攻击的特征是数据包数较少,数据包大小较大,流量波动较小,访问的目的性较弱。 综上所述,对于KDD Cup 99数据集分类,需要根据流量的不同特征进行分析,从而确定流量的类别,以进行有效的网络入侵检测。 ### 回答3: KDD-CUP99网络入侵检测数据集是公认的网络入侵检测领域的标准数据集之一。该数据集由MIT林肯实验室和DARPA合作开发,包括正常和异常网络流量数据,以模拟网络被攻击或未被攻击的情况。该数据集由42个网络特征变量组成,包括TCP,UDP和ICMP包个数、目的地IP地址、源IP地址、不同标记类型的错误个数、入站与出站概率等。其目的在于通过对网络数据的深入分析,识别潜在的网络威胁,预测和防范网络安全事故的发生。 在对KDD-CUP99数据集分类进行研究时,一般采用机器学习中的分类算法。分类算法的目标是将输入的网络流量数据进行划分,将其分为正常行为和异常行为两个类别。其中,异常行为包括DoS攻击、Probing攻击、R2L和U2R攻击。这四种攻击方式的特点分别是:DoS攻击是一种大量流量的攻击方式,旨在耗尽资源;Probing攻击是对网络的轻量级扫描,旨在发现网络的弱点;R2L攻击试图利用远程主机的漏洞,将恶意代码插入目标网络中;U2R攻击是一种利用异常代码发送数据包来比较权限和优先级的攻击。 目前,对于KDD-CUP99数据集分类研究主要集中在三个方面。一是研究分类算法,如KNN、支持向量机(SVM)、决策树等,通过比较算法和数据预处理方法,找出最佳的分类算法。二是对网络流量数据进行特征选择和维度规约,减少数据集规模、降低计算难度,提高分类准确率。三是对数据集进行增广和更新,使得分类算法能够适应新型的网络攻击方式和策略。 总之,KDD-CUP99数据集分类研究对于预测网络威胁、保护网络安全至关重要。分类算法的准确率和算法效率直接影响网络安全,因此,未来还需要加强对数据集的研究及算法创新,提高网络入侵检测能力,保障网络安全。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值