数据集
获取数据集的两个方案(网络异常流量)
一、自己配置虚拟机爬取数据(有条件的可以直接搞服务器上的数据)
缺点:很耗时而且爬的还没有什么普适性,电脑不行直接挂,我就是( ̄▽ ̄)"
- 自己用NetMate,设置特征选择的数据,然后直接爬。
- 系统:linux,配置文件设置一下就可开始对爬取的数据做特征。
Net Mate官网 - 预安装软件: readline libpcap libxml2 libcurl openssl pthreads
二、用已经爬取好的强大数据集
缺点:不是自己的( ̄▽ ̄)"
-
在经过一段长时间的寻觅后,我发现了它:KDDCUP1999的数据集,下面简要说一下它的内容和优势:
1.No.5 KDD CUP的预期目标是实现一个网络入侵检测系统(和我的目的一致(lll¬ω¬))。
2.预测模型需要能够辨别出到底哪个是入侵或攻击的“BAD”连接还是正常的“GOOD”连接。
3.数据集包含一组标准的审计数据,包括在军事网模拟的各种攻击。 -
数据集收集了9周时间的TCP dump网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。(所以我觉得为什么不用它呢,虽然电脑还是可能会炸,但是我省去了爬数据的时间,毕竟7