【含资源】CSE-CIC-IDS2018 数据集CSV文件 下载 与 处理

前言

学姐的一篇论文需要该数据集,全部有452.8GiB,所幸有处理好的CSV文件,2018的合计有6GiB左右;

四处搜寻没有找到,csdn上有个2018的会员资源下载下来里面是2017的内容,没办法自己去官网下载,过程不易,特总结一下方法,以及分享我下载的2018数据集。

我采用的下载办法,是用windows系统下的

参考资料

IDS2018数据集UNB官网

参考了两篇文章:
如何获得IDS2018的CSV格式数据集的问答
这篇博文:讲到了其他操作系统,我没有尝试

我下载的CSE-CIC-IDS2018

由于下载真的很慢,提供我的下载内容,大家信得过就拿去用。

下载方法

【1】 官网下载AWS工具
或者用我下载下来的(AWSCLI64.msi,windows64位)
【2】 在aws的安装文件夹中打开cmd命令窗口,运行:

aws s3 ls --no-sign-request "s3://cse-cic-ids2018" --recursive --human-readable --summarize

运行结果如下:

****我只列举了结果的后半部分,方便大家复制路径****
2018-10-12 00:02:25    0 Bytes Processed Traffic Data for ML Algorithms/
2018-10-12 00:02:49  336.0 MiB Processed Traffic Data for ML Algorithms/Friday-02-03-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:10  318.3 MiB Processed Traffic Data for ML Algorithms/Friday-16-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:33  365.1 MiB Processed Traffic Data for ML Algorithms/Friday-23-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:03:59    3.8 GiB Processed Traffic Data for ML Algorithms/Thuesday-20-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:08:38  102.8 MiB Processed Traffic Data for ML Algorithms/Thursday-01-03-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:08:48  358.5 MiB Processed Traffic Data for ML Algorithms/Thursday-15-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:09:20  364.9 MiB Processed Traffic Data for ML Algorithms/Thursday-22-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:09:44  341.6 MiB Processed Traffic Data for ML Algorithms/Wednesday-14-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:10:12  313.7 MiB Processed Traffic Data for ML Algorithms/Wednesday-21-02-2018_TrafficForML_CICFlowMeter.csv
2018-10-12 00:10:33  199.6 MiB Processed Traffic Data for ML Algorithms/Wednesday-28-02-2018_TrafficForML_CICFlowMeter.csv

Total Objects: 42
   Total Size: 452.8 GiB

【3】我们需要下载的是最后十个CSV文件,经过测试,逐条下载比递归下载要快。举例:

**使用该命令,下载上面结果中第12行对应那条数据:

aws s3 cp --no-sign-request "s3://cse-cic-ids2018/Processed Traffic Data for ML Algorithms/Wednesday-28-02-2018_TrafficForML_CICFlowMeter.csv" cicids2018

命令解读:①.其中,最后的cicids2018为存放路径,默认在aws安装路径下。②倒数第二个参数为云端文件路径(下载别的文件对应改名)
在这里插入图片描述
【4】下载效果(如果下载卡住了,按一下回车):
在这里插入图片描述

Tips:有可能第一遍会下载失败,再下一遍就很快了

吐槽,下载真的很慢。

数据处理参考

在数据处理过程中遇到两个小问题:
①有一列日期,我的处理是转为时间戳;参考链接
②有两列数据存在NaN,和Infinity;参考处理

我的处理:
在这里插入图片描述
在这里插入图片描述

恭喜大家,看完了!再见!

  • 19
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 32
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 32
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值