【日志异常检测】loghub相关内容

论文:Loghub: A Large Collection of System Log Datasets towards Automated Log Analytics

摘要

日志由于包含丰富的系统运行时信息,在软件系统开发和维护中被广泛采用。近年来,软件规模和复杂性的增加导致日志量的快速增长。为了高效地处理这些大量日志,一系列研究集中在由人工智能技术支持的智能日志分析上。然而,由于缺乏公共日志数据集和必要的基准测试,这些技术中只有一小部分在行业中成功部署。为了填补学术界和工业界之间的这一重大差距,并促进对人工智能驱动的日志分析的更多研究,我们收集并组织了loghub,这是一个庞大的日志数据集集合。

Introduction

在这里插入图片描述
日志应用流程:在这里插入图片描述
日志分类与概述:
在这里插入图片描述

在这里插入图片描述
(time span : 收集日志的时间,message:所有日志条数)

  • 5个数据集被标记(eg,normal/abnormal,alerts/not alerts)——用于异常检测和重复问题识别(duplicate issues identification);其他数据集——用于日志解析,日志压缩和无监督异常检测

数据集

2.1 分布式系统

HDFS
  • HDFS-1:在203个node手机,手动依据规则打标签,判定是否异常。日志根据 block ID
    被划分为traces(如日志序列),每个trace关联一个block ID 对应着真实标签:正常/异常。提供了特定的异常种类信息

  • HDFS-2:HDFS-2是通过聚合HDFS集群的日志来收集的,该集群包括一个名称节点和32个数据节点。日志在节点级别进行聚合。超过16GB,未打标签。

Hadoop

日志从一个有5台机器的Hadoop集群生成,执行两个测试程序:WordCount &PageRank,最开始运行环境没有失败注入,为了模拟服务失败进行了以下失败注入:

  1. machine down
  2. network disconnection
  3. disk full
    在这里插入图片描述
    提供不同的失败标签。
Spark

Apache Spark[57]是一个用于大数据处理的统一分析引擎,内置流式处理、SQL、机器学习和图形处理模块。目前,Spark已在行业中得到广泛部署。该数据集是通过汇总我们中大实验室Spark系统的日志收集的,该系统共包括32台机器。日志是在计算机级别聚合的。超过2GB,无标签。

ZooKeeper

无标签

OpenStack

云操作系统,该数据集是在CloudLab[12]上生成的,CloudLab是一个用于云计算研究的灵活、科学的基础设施。提供了正常日志和带有故障注入的异常情况,使数据可用于异常检测研究。

2.2 Supercomputer

BGL

日志中包含alert / non-alert的日志信息,在日志的第一列,‘-’表示非警告信息,其他是警告信息。

HPC

无标签

Thunderbird

日志标签设置同BGL

Operating Systems

Windows、Linux、Mac

无标签

Mobile Application

Server Application

日志异常检测有标签的数据集5个:

在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值