挑战
1)日志规模大,每小时1.2亿-2亿行的速度
2)日志来源广泛,恶意活动类型广泛,每个类型的恶意活动可能包含的实体类型广泛、来源广泛,很难使用单一特征来识别恶意活动
3)raw log通常是非结构化的自由文本,格式和语义大相径庭,导致检测出异常后的分析存在困难
日志解析器
日志分析通常有两个步骤:日志解析器将日志条目解析为结构化表单;对生成的日志序列进行异常检测。推荐大家阅读2018年的一篇综述,对现有的日志解析器进行了非常全面的描述,下表列举了一些开源的解析器。
解析器 | 使用技术 | 在线/离线 | 效率 |
SLCT | 频繁模式挖掘 | 在线 | 高 |
LogCluster | 频繁模式挖掘 | 离线 | 高 |
LenMa | 聚类 | 在线 | 中 |
Drain | 解析树 | 在线 | 高 |
MoLFI | 遗传算法 | 离线 | 低 |
异常检测方法
stay...
[1]Zhu J , He S , Liu J , et al. Tools and Benchmarks for Automated Log Parsing[J]. 2018.