日志文件行为模式识别

最新推荐文章于 2024-09-07 08:04:06 发布

HizT_1999

最新推荐文章于 2024-09-07 08:04:06 发布

阅读量647

点赞数

分类专栏：深度学习文章标签：机器学习深度学习 python

本文链接：https://blog.csdn.net/HizT_1999/article/details/106950358

版权

该博客介绍了如何使用深度学习对日志文件进行行为模式识别。数据处理中，通过one-hot编码转换非数值特征，并处理了缺失值。模型采用三层神经网络，使用sigmoid和relu激活函数，损失函数为binary，经过3个epoch训练，准确率达到了99.9%以上。

摘要由CSDN通过智能技术生成

基本流程

1.数据处理

1）数据集：
event.csv
2）数据集分析
Label：事件类型
无效列：与ip地址相关的信息以及与时间相关的信息。
毋庸置疑，日志时间对于分类结果并没有什么直观的贡献。并且由于网络分类目的是判别是否为攻击行为，所以目标ip地址与采集器ip地址、源ip地址都无法作为判断是否为网络入侵的特征，所以将其舍弃。
3）数据集处理
由于网络对于字符串类型数据无法接收，所以必须将信息转化为网络可识别的数字类型。采用one-hot编码的思想，对于类别较少的列直接进行一一编码，(例如：事件等级列{轻微-1 信息-0 严重-5 一般-4 重要-7}、操作{/执行 0 /其它 1 /配置 2 /删除 3 /扫描 4 /登录 5 /访问 6})。但对于类似备用"字符串5"这类的列信息，其不重复信息数量太大，如果简单使用one-hot编码进行一一处理，反而可能使得在特征空间上的类内距离过大。所以我参考了一个字符串匹配算法，将字符串相似性较高的信息编为1类，如：(备用字符串5{POST 1；HEAD 2；GET 3；ge1/4 4})。
Label处理：
/认证授权 0
/网络访问 1
/系统状态 2
/系统状态/运行报告 3
/安全预警 4
/其它分类 5
/信息刺探 6
/信息刺探/漏洞扫描 7
/信息监控 8
/攻击入侵 9
/攻击入侵/SQL注入 10
/攻击入侵/XSS注入 11
/攻击入侵/后门攻击 12
/攻击入侵/拒绝服务 13
/攻击入

最低0.47元/天解锁文章

HizT_1999

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
日志文件行为模式识别

基本流程1.数据处理1）数据集：event.csv2）数据集分析Label：事件类型无效列：与ip地址相关的信息以及与时间相关的信息。毋庸置疑，日志时间对于分类结果并没有什么直观的贡献。并且由于网络分类目的是判别是否为攻击行为，所以目标ip地址与采集器ip地址、源ip地址都无法作为判断是否为网络入侵的特征，所以将其舍弃。3）数据集处理由于网络对于字符串类型数据无法接收，所以必须将信息转化为网络可识别的数字类型。采用one-hot编码的思想，对于类别较少的列直接进行一一编码，(例如：事件等级
复制链接

扫一扫

专栏目录