日志模版挖掘 - 工具篇
背景
日志是半结构化的数据,往往包含非常重要的信息。但是,对日志的应用通常局限在开发调试阶段。在运维阶段,也只是当系统出现问题后,需要救急时才来查阅。究其原因,是因为日志具有随意性,尤其是其根本目的是让人看懂,而不是让机器看懂。
其实,如果能让机器看懂日志,很多创新的应用场景就可以成为现实,比如失败预警、自动诊断、趋势分析等。
那么问题来了,如何用技术手段让机器看懂日志呢?一直以来,大家都依赖一种很古老的方法,那就是正则表达式。通过匹配日志中固定不变的字段,来识别这条日志。包括最近很流行的Logstash,虽然可以使用更时髦的Grok, 也仍然需要通过人工编制这样的表达式来实现日志的识别。
这本质还是需要人能看懂。 例如,当管理员看到:
2014-04-16 00:25: