一、特征提取
- 日志异常检测任务一般分为日志采集、日志解析、特征提取、异常判别4个步骤
- 特征表示/提取这部分工作的主要目的在于构造机器学习模型可以处理的特征数据,借此来学习日志的正常或者异常模式。所提取特征的质量决定了后续模型检测效果所能达到的精度。
- 特征提取的输入是日志解析步骤中生成的日志事件,输出的是事件计数矩阵。
- 日志特征提取技术有:基于自然语言处理NLP,基于规则集,基于统计模型。这里我采用的是基于自然语言处理NLP
二、具体实现步骤(参考文章)
在日志解析完成后,我们已经得到系统的结构化日志,但是此时日志键还只是字符串的形式,参数列表元素也还是字符串,无法直接作为深度学习模型的输入,所以我们还需要将其特征化为数字形式的特征向量。特征提取的过程就是将字符串中转换为可量化的数字,从而构造矩阵作为特征向量,对于日志键和参数,由于其形成和表达的意义不同,我们采用了两种不同的特征化方法。