研究型论文_基于机器学习的入侵检测的自动特征提取和选择(英文论文)

Automatic Feature Extraction and Selection For Machine Learning Based Intrusion Detection

论文摘要

随着移动技术的进步和支持物联网的设备已经融入到我们的日常生活中,无线网络流量的显著增加产生了大规模的高维网络日志数据。这给Wi-Fi网络系统的安全带来了挑战,因为需要分析如此复杂的大数据来进行入侵检测。

许多Wi-Fi网络系统通常使用基于机器学习的入侵检测系统(IDS)。此类入侵检测系统通常采用有监督的方法,在特征提取、特征选择和训练数据标注等分类过程中,严重依赖于人类专家的观察。

在这项研究中,使用最近收集的爱琴海Wi-Fi入侵数据集(AWID),该数据集包含不同网络攻击类型的真实痕迹,我们提出了一种具有自动特征提取和选择过程的无监督方法,以取代分析大规模高维数据的人工干预和手工标注过程,以提高分类的预测精度,检测3种最常见的网络攻击类型-注入、泛洪、以及在IDS中使用大量高维数据模拟攻击。

实验结果表明了该方法在特征提取和选择方面的有效性。比较分析了三种攻击类型所选择特征的质量和入侵检测的准确性。

论文解决的问题

提出了一种特征提取和选择模型(可用于毕设)

1.模型结构

在这里插入图片描述
过程说明:

  1. 首先对初始数据集进行一些归一化、独热编码,重采样等操作获得input data
  2. 然后使用堆叠的无监督的自编码器对input data进行特征提取,先从154个特征中提取100个特征,然后再从100个特征中提取50个特征。
  3. 将提取得到的50个特征与之前的154个特征合并,然后给出了四种特征选择的方法,分别是AFES-CART、AFES-RF、AFES-NN、AFES-SVM。从这154个特征中选择18个权重较高的特征。
  4. 最后使用SVM进行分类。

2.堆叠式自编码器

在这里插入图片描述
简单来讲就是堆叠了两层隐层,第一层用于从154个特征中提取100个特征。第二层用于从100个特征中提取50个特征,至于自编码器如何提取特征,不是本文主要探讨的问题,可以看这篇文章参考理解:自编码器

3.AFES-CART

使用Cart树来进行特征选择的方法:

对得到的具有204个特征(154+50)的数据集,按照Gini系数来构建Cart树,构造完成后,选择前n层的特征。n为参数。

实验部分:先用网格搜索和10折交叉验证找最优参数,然后才构建Cart树

4.AFES-RF

使用随机森林来进行特征选择的方法:

设定阈值,利用随机森林对特征重要性进行评估。(随机森林特征重要性),大于阈值的特征被保留。

5.AFES-NN

使用人工神经网络来进行特征选择的方法:

文中的神经网络只有一个隐层,一个relu激活层,一个softmax层,先使用所有特征对人工神经网络进行训练,训练完成后,对每个特征而言,将它与隐层的所有神经元之间连接的权重求和。设定一个阈值,和大于该阈值特征被保留。

6.AFES-SVM

使用SVM来进行特征选择的方法:

文中采用了SVM结合递归特征消除的方法进行特征选择,具体方法看这个文章:SVM-RFE

7.实验结果

在这里插入图片描述
该图表示每个特征选择算法在有无特征提取步骤的特征选择结果。可以发现,左右两列的数据有部分重叠。

在这里插入图片描述
该图表示

无特征提取且使用原始154个特征 、
有特征提取但没有特征选择且使用合并后的204个特征 、
有特征选择但无特征提取且是在原始的154个特征上进行的特征选择 、
有特征提取和特征选择并且是在合并后的204个特征上进行的特征选择 ,

四种数据集下各个特征选择算法的最后测试效果。

发现使用SVM-RFE方法进行特征选择效果最好。

总结

这篇论文提出的这种结构可以稍加改变作为一种特征选择和提取的结构。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值