引言
在很多安全分析类产品建设的过程中都会涉及到关联分析,比如日志分析、SOC、态势感知、风控等产品。之前的文章中阐述过五种最常见的关联分析模型,在文中也介绍了:要想达到很好的关联分析效果,前提是对采集过来的日志进行标准化解析。解析的维度越多、内容越准确,对关联分析的支撑性就越强。下面就来介绍一下日志解析的一些常用内容。
一、概述
很多公司在自己的产品介绍中描述产品有多少种日志解析规则等等,当然,这种内置的解析规则对这类产品发挥了很重要的作用。但这种方式也存在一些问题:
首先,经过时间的推移就会发现,每年市场上都会产生不少的新的安全设备和型号,导致厂家很难实现全部预制好的解析规则;
其次,很多设备会经常升级,升级后会导致日志种类的增加和调整;
最后,很多设备的日志种类非常之多,如果全部内置到系统中,几乎是不可能完成的任务。所以大多数的产品,只内置了部分的日志解析规则。比如思科ASA防火墙日志从官网看就有好几百种日志格式,如果内置都解析,是很大的工作量,何况有时候也没有必要全部解析。
根据以上分析可以得出,只在产品中内置默认的解析规则是不够的,在很多时候需要根据客户的实际环境进行调整。这种情况下,日志解析的灵活性、准确性、扩展性就显得非常重要了。下面介绍一下日志解析中常用的内容。
二、日志解析关键点
标准化解析,也叫范式化解析,解析的目标是把日志中的直接信息和间接信息解析出来,作为单独的字段进行存储。对应数据库中就是“列”的概念。传统上来说,存储大多用关系数据库,比如:oracle、mysql。随着大数据平台的发展,最近几年,存储都是放在大数据平台上的,比如:hive、elasticsearch等。下面举个linux下一条常用的登录日志作为例子:
May 22 17:13:01 10-9-83-151 sshd[17422]: Accepted password for secisland from 129.74.226.122 port 64485 ssh2
从这个日志中就可以看到很多的信息,比如直接信息包括:
-
登录时间:May 22 1