目录
论文:Loghub: A Large Collection of System Log Datasets towards Automated Log Analytics
摘要
日志由于包含丰富的系统运行时信息,在软件系统开发和维护中被广泛采用。近年来,软件规模和复杂性的增加导致日志量的快速增长。为了高效地处理这些大量日志,一系列研究集中在由人工智能技术支持的智能日志分析上。然而,由于缺乏公共日志数据集和必要的基准测试,这些技术中只有一小部分在行业中成功部署。为了填补学术界和工业界之间的这一重大差距,并促进对人工智能驱动的日志分析的更多研究,我们收集并组织了loghub,这是一个庞大的日志数据集集合。
Introduction
日志应用流程:
日志分类与概述:
(time span : 收集日志的时间,message:所有日志条数)
- 5个数据集被标记(eg,normal/abnormal,alerts/not alerts)——用于异常检测和重复问题识别(duplicate issues identification);其他数据集——用于日志解析,日志压缩和无监督异常检测。
数据集
2.1 分布式系统
HDFS
-
HDFS-1:在203个node手机,手动依据规则打标签,判定是否异常。日志根据 block ID
被划分为traces(如日志序列),每个trace关联一个block ID 对应着真实标签:正常/异常。提供了特定的异常种类信息 。 -
HDFS-2:HDFS-2是通过聚合HDFS集群的日志来收集的,该集群包括一个名称节点和32个数据节点。日志在节点级别进行聚合。超过16GB,未打标签。
Hadoop
日志从一个有5台机器的Hadoop集群生成,执行两个测试程序:WordCount &PageRank,最开始运行环境没有失败注入,为了模拟服务失败进行了以下失败注入:
- machine down
- network disconnection
- disk full
提供不同的失败标签。
Spark
Apache Spark[57]是一个用于大数据处理的统一分析引擎,内置流式处理、SQL、机器学习和图形处理模块。目前,Spark已在行业中得到广泛部署。该数据集是通过汇总我们中大实验室Spark系统的日志收集的,该系统共包括32台机器。日志是在计算机级别聚合的。超过2GB,无标签。
ZooKeeper
无标签
OpenStack
云操作系统,该数据集是在CloudLab[12]上生成的,CloudLab是一个用于云计算研究的灵活、科学的基础设施。提供了正常日志和带有故障注入的异常情况,使数据可用于异常检测研究。
2.2 Supercomputer
BGL
日志中包含alert / non-alert的日志信息,在日志的第一列,‘-’表示非警告信息,其他是警告信息。
HPC
无标签
Thunderbird
日志标签设置同BGL
Operating Systems
Windows、Linux、Mac
无标签