最近在处理KDDcup99的数据,将自己遇到的问题和方法记录下来,以分享给大家。
资源整合
KDD CUP1999的数据集的介绍KDD CUP 99数据集
KDD CUP1999 的数据集参考项目下载 可供参考项目地址,下载代码可运行
数据下载
下载的KDDCUP99的数据文件是这样的
kddcup.namesAlist of features.
kddcup.data.gzThefull data set (18M; 743M Uncompressed)
kddcup.data_10_percent.gzA10% subset. (2.1M; 75M Uncompressed)
kddcup.newtestdata_10_percent_unlabeled.gz(1.4M; 45M Uncompressed)
kddcup.testdata.unlabeled.gz(11.2M;430M Uncompressed)
kddcup.testdata.unlabeled_10_percent.gz(1.4M;45M Uncompressed)
corrected.gzTestdata with corrected labels.
training_attack_typesAlist of intrusion types.
数据集的介绍请看链接1,把corrected.data文件作为训练集,kddcup.data_10_percent作为测试集即可。
数据读取
下载的文本是纯文本文件,用NotePad++打开另存为.txt文件,方便python读取。下面我做的工作就是添加标签,然后把txt文件另存为csv文件