日志文件行为模式识别

该博客介绍了如何使用深度学习对日志文件进行行为模式识别。数据处理中,通过one-hot编码转换非数值特征,并处理了缺失值。模型采用三层神经网络,使用sigmoid和relu激活函数,损失函数为binary,经过3个epoch训练,准确率达到了99.9%以上。
摘要由CSDN通过智能技术生成

基本流程

1.数据处理

1)数据集:
event.csv
2)数据集分析
Label:事件类型
无效列:与ip地址相关的信息以及与时间相关的信息。
毋庸置疑,日志时间对于分类结果并没有什么直观的贡献。并且由于网络分类目的是判别是否为攻击行为,所以目标ip地址与采集器ip地址、源ip地址都无法作为判断是否为网络入侵的特征,所以将其舍弃。
3)数据集处理
由于网络对于字符串类型数据无法接收,所以必须将信息转化为网络可识别的数字类型。采用one-hot编码的思想,对于类别较少的列直接进行一一编码,(例如:事件等级列{轻微-1 信息-0 严重-5 一般-4 重要-7}、操作{/执行 0 /其它 1 /配置 2 /删除 3 /扫描 4 /登录 5 /访问 6})。但对于类似备用"字符串5"这类的列信息,其不重复信息数量太大,如果简单使用one-hot编码进行一一处理,反而可能使得在特征空间上的类内距离过大。所以我参考了一个字符串匹配算法,将字符串相似性较高的信息编为1类,如:(备用字符串5{POST 1;HEAD 2;GET 3;ge1/4 4})。
Label处理:
/认证授权 0
/网络访问 1
/系统状态 2
/系统状态/运行报告 3
/安全预警 4
/其它分类 5
/信息刺探 6
/信息刺探/漏洞扫描 7
/信息监控 8
/攻击入侵 9
/攻击入侵/SQL注入 10
/攻击入侵/XSS注入 11
/攻击入侵/后门攻击 12
/攻击入侵/拒绝服务 13
/攻击入

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值