数据获取
本篇文章中数据获取自团队成员在自购服务器上部署的t-pot蜜罐集成平台。收集接近十天的网络数据,后经过人工标注得到的数据集。
数据处理
大部分网络数据项可以分成几个类别,因此在数据预处理阶段的大致思路就是将复杂的字符串信息转化为几个类别,其中主要研究了两个特征attack_connection.payload.data_hex
和message
前者是网络通讯过程中传输的十六进制数据,经过对十六进制数据进行ASCII编码,得到可阅读的报文信息,经过研究发现其中存在攻击嫌疑的报文包含:图谋不轨的cookie、用户匿名、提到busybox(远程代码执行漏洞相关)等类似信息。经过精炼,筛选出三个单词:anonymous Administr busybox匹配上述三种漏洞。
后者总结出了文档材料:
根据上述规则对所有的特征进行分类,上述两个特征的对应关系如下:
剩余特征基本按照每一种数据一个类别分类,处理如下:
columnsName = resourse.columns.values.tolist()
for indexs in resourse.columns:
lista = []
print(indexs)
fo