论文对CICIDS2017数据集进行客观评价,介绍了数据集本身存在的缺陷以及解决方法。
摘要: CICIDS2017是2017年提出的,包含了当下最新的威胁种类和特征,相比于之前的数据集,没有重大的缺陷,但足以使典型的IDS产生偏差。
入侵检测系统需要与时俱进的信息才能够有效的检测到攻击,大量入侵检测系统达到98%准确率,吸引了研究者和企业投入资金和时间为用户提供有效的产品,但是这些模型很少能够被企业所使用在开发真实的IDS中。
CICIDS2017缺陷在于:
- 数据集过大且过于分散
== 可以进行下采样,但是在采样之前要解决数据类别不平衡的问题才可以== - 包含大量的冗余数据
- 数据高度不平平衡,误导分类器,训练会侧重于样本数量较多的类
在解决数据 不平衡问题上,1)将样本数量较多的类进行分割,分成几个类,或者将几个少数类合并成一个类( == 但是这样会使得样本的多样性减少 == )