基于蜜罐搜集到的网络数据训练的随机森林模型

最新推荐文章于 2023-12-25 00:41:05 发布

妄语之人

最新推荐文章于 2023-12-25 00:41:05 发布

阅读量472

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41979347/article/details/104384231

版权

本文介绍了一种基于蜜罐平台收集的网络数据训练的随机森林模型。数据经过预处理，将字符串转化为类别，特别是关注了与攻击相关的特征如'anonymous', 'Administr', 'busybox'。通过这种方式，构建的模型在测试集上达到了0.9645的准确率。" 116322927,10541469,Oracle impdp 导入覆盖PROCEDURE和PACKAGE问题解析,"['Oracle数据库', '数据迁移', '数据库管理', '数据导入导出', '数据库错误处理']

摘要由CSDN通过智能技术生成

数据获取

本篇文章中数据获取自团队成员在自购服务器上部署的t-pot蜜罐集成平台。收集接近十天的网络数据，后经过人工标注得到的数据集。

数据处理

大部分网络数据项可以分成几个类别，因此在数据预处理阶段的大致思路就是将复杂的字符串信息转化为几个类别，其中主要研究了两个特征attack_connection.payload.data_hex和message

前者是网络通讯过程中传输的十六进制数据，经过对十六进制数据进行ASCII编码，得到可阅读的报文信息，经过研究发现其中存在攻击嫌疑的报文包含：图谋不轨的cookie、用户匿名、提到busybox(远程代码执行漏洞相关)等类似信息。经过精炼，筛选出三个单词：anonymous Administr busybox匹配上述三种漏洞。

后者总结出了文档材料：
在这里插入图片描述

根据上述规则对所有的特征进行分类，上述两个特征的对应关系如下：

在这里插入图片描述

剩余特征基本按照每一种数据一个类别分类，处理如下：

columnsName = resourse.columns.values.tolist()
for indexs in resourse.columns:    
	lista = []    
	print(indexs)    
	fo

最低0.47元/天解锁文章

妄语之人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录