基于日志的软件故障检测技术学习笔记（2023.05总结）

最新推荐文章于 2024-05-31 09:59:41 发布

MrAmateur

最新推荐文章于 2024-05-31 09:59:41 发布

阅读量718

点赞数 1

分类专栏： RCA 文章标签：笔记运维软件工程

本文链接：https://blog.csdn.net/qq_33882073/article/details/131096871

版权

RCA 专栏收录该内容

1 篇文章 1 订阅

订阅专栏

软件故障指的是服务实际上无法完成其功能[1][2][3]。软件故障又可分为能够被及时发现和记录的包括外部故障（如硬件故障、资源不足）、内部软件错误（如无限循、配置错误）等，以及难以发现的仅仅产生性能下降的一些故障和未知原因故障[2][3][4][5]。软件故障会破坏软件系统的可用性，导致软件服务性能下降、目标难以达成、服务客户流失，甚至造成巨大的经济损失。因此，软件故障检测技术广泛存在于分布式软件系统、复杂软件密集系统、云服务器、各大商业和开源软件项目、云计算平台、微服务应用程序等软件系统和计算领域各个方面。该技术涉及概念与方法涵盖了包括但不限于可靠性工程（形式化、度量、日志、跟踪）、异常检测（日志解析、特征提取、模板匹配、动态基线）等领域，而涉及的每个领域又包含有大量的传统方法（逻辑回归、支持向量机、形式化分析、关联分析等）和深度学习方法（LSTM、BERT、Word2Vec等）[4][5][6][7][8]。社会的广泛需求和大量的领域交叉融合方法使得软件故障检测技术成为当前计算机领域研究的热点之一[4][5][7][9]。

贾统等人[9]提出，日志数据因其能够支持更细粒度的根因诊断、程序逻辑跟踪、定位异常请求实例而相较监控数据更具优势。Li等人对故障发生后的检测进行了研究，发现只有38.7%的报告表明工程师如何检测故障，约有93.4%的故障检测使用了自动监测工具（因部分故障检测同时有人工和自动化工具参与，因此两个百分比之和大于100%）[5]。从历史研究来看，大部分软件（尤其是大型复杂软件系统）的故障检测方法也常把日志当作重要数据[3][4][5][6][7][8][9][11][12]。因此，对现有的基于日志的软件故障检测方法做一个整体的梳理很有必要。第1节对基于日志数据的系统故障检测的一般方法进行总结。第2 节对现有的日志解析技术进行简要分析。第3节对目前基于日志数据的异常检测技术进行总结。第4 节简要分析了相关研究工作,并对未来值得关注的研究方向进行了初步探讨。

基于日志数据的软件系统故障检测的一般方法

在软件系统中，主要有三种类型的监控数据（度量、日志、跟踪）在软件可靠性工程中发挥着重要作用[13][14][15]。其中，度量和日志已被广泛地用于异常检测。度量（例如，响应时间、线程数、CPU使用率）是测量系统状态的实值时间序列。日志是由日志语句打印的半结构化文本消息，用于记录系统的运行时状态。在实际运行中，部分度量数据也会形成日志。日志消息是日志语句标准输出的一行，由常量字符串（由开发人员编写）和变量值（由系统确定）组成。

Xiaoyun Li等人围绕故障发生、故障检测、故障识别和故障缓解四个部分较为系统地分析了云系统中故障地生命周期[5]。其他软件系统中的故障检测与恢复流程与之类似。软件的故障检测属于异常检测的一个分支，常基于三种数据（度量数据、日志数据、跟踪数据）开展。其中，度量数据的实时性和较高可视化潜能长期引起人们注意；随着软件规模的增大，软件日志因其海量规模和丰富数据使得人们可以更好地了解系统状态并在故障发生时进行诊断。基于日志的异常检测主要是通过日志解析形成结构化数据，删除变量等“无关数据”以获得描述系统运行时事件的日志事件，从而建立时间序列或事件序列或文本语义序列等，以达到可以采用异常检测中常用的方法对其进行处理的目的，也有一些不通过日志解析而是借助于强大的自然语言处理方法直接从原始日志出发提取语义向量然后借助分类模型来检测异常[16]。

日志解析技术

如第1节所示，基于日志的故障分析和检测四个步骤中，日志收集、日志清理和预处理主要是收集和使清理日志数据。日志信息提取和日志分析等可以涉及机器学习模型。

目前，在工业界和学界以及开源社区有许多用于日志解析的工具。日志解析工具主要是进行日志文本分析、矢量化、分类编码与特征提取等工作。其中，没有使用机器学习技术的有GreyLogs、Grafana、Prometheus、Drain等。基于机器学习的日志解析工具近几年来也出现了很多，如开源社区GitHub上较为火热的自动解析工具LOGPAI（https://github.com/logpai/），Log2Vec（https://github.com/orgs/NetManAIOps），以及NetManAIOps 的 LogClass 等。

在文本分析方面，目前较为流行的工具有Drain[18]、IPLoM[19]和AEL[20]。其中，基于固定深度树的Drain[18]相比其他解析方法准确度和效率更高。文本分析结束后，需要将非结构化日志线转换为语义向量，常用的方法有 FastText[21]、Word2Vec[22]、TF-IDF[23]等。而分类编码和特征提取则是要将经过前期处理的日志数据转换为后续的异常检测等模型可以使用的日志特征集。根据类型的不同，主要可以分为时间序列、语义序列、事件序列。多数情况下，从矢量化到特征提取的这些步骤经常与后续的异常检测等模型结合起来，形成可供比较的基于不同类型特征集和模型，从而为后续处理提供方便。

异常检测技术

如第2节所示，日志解析常与异常检测结合起来，基于日志的异常检测的任务是，通过分析日志数据，识别潜在的异常日志行，并根据日志的异常行中信息检测或定位已发生的软件事件或中断。实际上，基于日志的异常检测模型根据其遵循的训练框架被大致分为两种类型：有监督（含半监督/弱监督）的和非监督的。

有监督/半监督/弱监督的异常检测

有监督（含半监督/弱监督）的异常检测模型要求在每个日志行、日志组或分区后的日志区域有明确标注的日志是否异常的标签。此外，还通常假设每个训练、测试和验证的数据集应当包含异常和非异常日志数据。由于它们直接依赖于对异常类型日志的建模，当异常分布改变时，或在训练数据中很少出现某种异常时，或是软件还处于不断地更新迭代时，这一方法往往会受到影响，导致模型缺乏鲁棒性。这方面最近较为全面的工作是由Lee等人提出的Hades方法[24]，该方法利用日志和度量在反映系统异常方面的互补，采取半监督式学习，基于log-metric结合的跨模态异构信息来检测异常。

无监督的异常检测

无监督的异常检测模型不需要为原始的日志文本人工去添加任何异常标签，因此，在日志文本数据数量级增长的背景下成为了当前最为广泛的手段。但是，现有的无监督模型通常假设整个训练数据只由正常日志组成。实际上，当训练数据被掺入极少数异常日志时，这些模型就会表现出性能的急剧下降。

在许多的无监督异常检测模型中，目前最常使用的是基于LSTM和Transformer两种基础的深度学习模型的方法。LSTM模型亦即对给定的日志序列进行编码的长短期记忆（LSTM）网络，可以根据是否利用给定输入序列中的记号的单向或双向编码、是否在输入序列上具有可学习的注意网络等形成具有注意力权重的隐藏表示的加权组合。基于LSTM的模型有LogAnomaly[25]、DeepLog[26]和LogRobust[27]等。其中，使用单向LSTM的是DeepLog（使用事件序列表示方法，每个日志消息由其日志事件的索引）和LogAnomaly（使用语义序列表示方法），使用双向LSTM的是LogRobust（使用具有注意网络的语义序列表示方法）。Transformer是一种具有多头自注意机制的神经网络从而实现日志数据的特征表示。基于Transformer的模型的代表是LogSy[28]和LogBERT[29]。多数模型均采用了辅助日志数据集作为伪异常数据，这有助于模型学习正常日志数据的更好表示，同时针对过度拟合进行正则化。

在大量研究工作中，值得一提的是，2019年，Xu等人提出的LogRobust[27]方法，LogRobust提取日志事件的语义信息，并将其表示为语义向量，利用基于注意力的Bi-LSTM模型来检测异常，该模型能够捕获日志序列中的上下文信息并自动获知不同日志事件的重要性。此后，大量的采取语义信息并基于Bi-LSTM模型的方法被提出。而2020年和2021年，LogSy[28]和LogBERT[29]的被提出进一步推动了基于Transformer尤其是Bert等大量NLP技术在日志解析和日志异常检测的运用。2023年，微软的Toufique Ahmed等人基于最先进的大型语言模型（LLM），如GPT-3.x（包括GPT-3.0和GPT-3.5），开展了在实际中解决故障检测的实用性探索研究[30]。在进行模型微调（Fine-tuning）后显著提高了LLMs在事件数据方面的有效性，使得GPT-3和GPT-3.5模型明显优于Transformer等模型。

异常检测的模型部署问题

现代软件系统尤其是云等在线系统的规模和复杂性正在增加。由于不同的软件系统可能具有不同的行为模式，有一个观点是，应当为每个软件系统分配相应的模型，该模型用相应的历史数据训练[27][31]。然而，由于深层模型具有成千上万的网络参数，因此由于模型存储和调度的巨大成本，这一部署方案可取性不高。此外，对容错性的要求使得现代在线系统具有高度动态性。在这种情况下，从每个软件获取十分充足的历史数据以训练每个特定模型是极其困难的。总的来说，当今系统的大规模和动态性导致许多异常检测方法（尤其是基于深度神经网络的）和实际运用中的便携式部署之间存在差距。2022年，He等人提出通过在同一系统的多个被监控实体之间直接共享一个统一的深度无监督异常检测模型来解决实用性问题，并利用Transformer提出了一种新的适用于多软件系统共享的异常检测模型[32]。该模型与单独部署的异常检测模型相比，相对提高了6.66%~77.71%，其部署轻便有效，平均检测时间处于毫秒级。深度神经网络的强大的拟合能力和可传递性为这一工作提供了理论基础。从现有的基于深度神经网络的异常检测模型的归纳性偏差来看，尤其是对于云平台而言，探索适用于多数软件系统的共享的异常检测模型是可行的。

基于日志的异常检测技术展望

基于日志的异常检测本质上是通过日志解析形成结构化数据，建立时间序列或事件序列或文本语义序列，从而可以采用异常检测中常用的方法（启发式分析、决策树、分布差异、最小近邻、LSTM、BERT等）将正常的日志模型与实际的日志模型进行比对，从而对其进行处理。当前，最为常用的方法是传统的分析方法（如2017年至今仍然特别有用的Drain）和自然语言处理方法（2020年之后主要是LSTM、BERT和它们的变体，）。从实际的效果上来看，针对不同的日志数据集几种方法各有千秋。值得注意的是，2021年Van-Hoang Le提到为避免许多日志解析方法中的关键信息丢失等缺陷，Van-Hoang Le提出了不进行Log Parsing而直接把几乎全部的Log信息形成文本序列嵌入后续过程进行处理[16]，这一点与后来的NLP典型方法的workflow十分切合。这说明，采取更为强大的神经网络从而最大限度保留日志信息以便于异常检测也许是后续工作的一个主要研究路径。另外，异常检测的误报和漏报问题依然不容低估。误报，即检测到的异常实际上不是异常，将导致软件使用者或操作者将资源和精力花在不必要的地方。漏报，则会导致不能检测到某些异常，这又意味着在实际发生某种故障的情况下，无法识别出该类故障并报告。

在异常检测的基础上，常将其结果运用于故障定位和故障预测。故障定位，亦即根因分析，是智能运维的一个热点问题。故障根因分析的基础与异常检测一样，也是三种数据（度量数据、日志数据、跟踪数据），不过这部分的重点在于如何借助度量数据和日志数据建立较好的跟踪序列/跟踪关系，也就是以度量的指标和日志信息为基础，通过跟踪建立程序/模块/函数的调用堆栈，从而以序列或因果的形式定位到故障发生点，目前主要是相关方法和因果关系方法两种，如可视化的方法、拓扑图的方法等，但是最底层的结构始终是要在时间序列或其他序列中发现因果关系。故障预测则往往通过基于预测的自监督，即通过学习预测给定日志数据序列的输入上下文的下一日志行的标记来学习日志数据的表示，通常被训练为真实分布和预测分布之间的交叉熵损失，其目的是以给定输入序列为条件最大化真实标签的似然性。

总的来说，目前基于日志的异常检测与根因分析经常结合起来，而日志数据也和其他的数据结合起来（如与度量数据结合起来的log-metric），从而达到更好的效果[15][24]。从方法上来看，自然语言处理的典型方法LSTM和Bert等是目前的热点方向，但传统的Drain等分析方法和基于统计的机器学习方法仍然在某些数据集上有较好的表现。

References:

Jerome H. Saltzer and M. Frans Kaashoek. 2009. Principles of Computer System Design: An Introduction. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
“Alibaba cloud reports io hang error in north china,” https://equalocean.com/technology/20190303-alibaba-cloud-reports-io-hang -error-in-north-china, 2019, [Online].
C. Lou, P. Huang, and S. Smith, “Understanding, detecting and localizing partial failures in large system software,” in NSDI’20: Proc. of the 17th USENIX Symposium on Networked Systems Design and Implementation, 2020, pp. 559–574.
JACOPO SOLDANI and ANTONIO BROGI. Anomaly Detection and Failure Root Cause Analysis in (Micro)Service-Based Cloud Applications: A Survey. http://arxiv.org/abs/2105.12378v1
Xiaoyun Li;Guangba Yu;Pengfei Chen;Hongyang Chen;Zhekang Chen.Going through the Life Cycle of Faults in Clouds: Guidelines on Fault Handling[A].2022 IEEE 33rd International Symposium on Software Reliability Engineering (ISSRE)[C],2022
Areeg Samir and Claus Pahl. 2019. DLA: Detecting and Localizing Anomalies in Containerized Microservice Archi-tectures Using Markov Models. In 2019 7th International Conference on Future Internet of Things and Cloud (FiCloud) (Istanbul, Turkey). IEEE, New York, NY, USA, 205–213. https://doi.org/10.1109/FiCloud.201
Xiaoyun Li, Pengfei Chen, Linxiao Jing, Zilong He, and Guangb. SwissLog: Robust Anomaly Detection and Localization for Interleaved Unstructured Logs. JOURNAL OF LATEX CLASS FILES, VOL. 14, NO. 8, AUGUST 2021.
Cheryl Lee, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Yongqiang Yang, and Michael R. L. Heterogeneous Anomaly Detection for Software Systems via Semi-supervised Cross-modal Attention. arXiv:2302.06914v1 [cs.SE] 14 Feb 2023
贾统, 李影, 吴中海. 基于日志数据的分布式软件系统故障诊断技术综述. Journal of Software, 软件学报 2020 第31卷第7期 P1997-2018 1000-9825
P. He, J. Zhu, Z. Zheng, and M. R. Lyu, “Drain: An online log parsing approach with fixed depth tree,” in 2017 IEEE International Conference on Web Services (ICWS). IEEE, 2017, pp. 33–40.
X. Zhang, Y. Xu, Q. Lin, B. Qiao, H. Zhang, Y. Dang, C. Xie, X. Yang,Q. Cheng, Z. Li et al., “Robust log-based anomaly detection on unstable log data,” in ESEC/FSE’19: Proc. of the 2019 27th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering. ACM, 2019, pp. 807–817.
W. Xu, L. Huang, A. Fox, D. Patterson, and M. I. Jordan, “Detecting large-scale system problems by mining console logs,” in SOSP’09: Proc.of the ACM SIGOPS 22nd Symposium on Operating Systems Principles.ACM, 2009, pp. 117
Z. Chen, Y. Kang, L. Li, X. Zhang, H. Zhang, H. Xu, Y. Zhou, L. Yang,J. Sun, Z. Xu, Y. Dang, F. Gao, P. Zhao, B. Qiao, Q. Lin, D. Zhang,and M. R. Lyu, “Towards intelligent incident management: why we need it and how we make it,” in ESEC/FSE ’20: 28th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering, Virtual Event, USA, November 8-13, 2020.ACM, 2020, pp. 1487–1497.
J. Lou, Q. Lin, R. Ding, Q. Fu, D. Zhang, and T. Xie, “Software analytics for incident management of online services: An experience report,” in 2013 28th IEEE/ACM International Conference on Automated Software Engineering, ASE 2013, Silicon Valley, CA, USA, November 11-15, 2013. IEEE, 2013, pp. 475–485.
Shenghui Gu;Guoping Rong;Tian Ren;He Zhang;Haifeng Shen;Yongda Yu;Xian Li;Jian Ouyang;Chunan Chen.TrinityRCL: Multi-Granular and Code-Level Root Cause Localization Using Multiple Types of Telemetry Data in Microservice Systems[J].IEEE Transactions on Software Engineering,2023,: 1-18
Van-Hoang Le and Hongyu Zhang. 2021. Log-based Anomaly Detection Without Log Parsing. In 2021 36th IEEE/ACM International Conference on Automated Software Engineering (ASE). 492–504.
qcheng, amrita.saha, wenzhuo.yang, chenghao.liu, dsahoo, shoi. salesforce. LogAI. https://github.com/ salesforce/logai
P. He, J. Zhu, Z. Zheng, and M. R. Lyu, “Drain: An online log parsing approach with fixed depth tree,” in ICWS’17: 2017 IEEE International Conference on Web Services. IEEE, 2017, pp. 33–40.
Adetokunbo AO Makanju, A Nur Zincir-Heywood, and Evangelos E Milios. Clustering event logs using iterative partitioning. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 1255–1264, 2009.
Zhen Ming Jiang, Ahmed E Hassan, Gilbert Hamann, and Parminder Flora. An automated approach for abstracting execution logs to execution events. Journal of Software Maintenance and Evolution: Research and Practice, 20(4):249–267, 2008.
Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors with subword information. Transactions of the association for computational linguistics, 5:135–146, 2017.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
Juan Ramos et al. Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning, volume 242, pages 29–48. Citeseer, 2003.
C. Lee, T. Yang, Z. Chen, Y. Su, Y. Yang, and M. R. Lyu, “Heterogeneous anomaly detection for software systems via semi-supervisedcross-modal attention,” 2022.
Weibin Meng, Ying Liu, Yichen Zhu, Shenglin Zhang, Dan Pei, Yuqing Liu, Yihao Chen, Ruizhi Zhang, Shimin Tao, Pei Sun, and Rong Zhou. Loganomaly: Unsupervised detection of sequential and quantitative anomalies in unstructured logs. In Proceedings of the 28th International Joint Conference on Artificial Intelligence, IJCAI’19, page 4739–4745. AAAI Press, 2019.
Min Du, Feifei Li, Guineng Zheng, and Vivek Srikumar. Deeplog: Anomaly detection and diagnosis from system logs through deep learning. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, CCS ’17, page 1285–1298, New York, NY, USA, 2017. Association for Computing Machinery.
Xu Zhang, Yong Xu, Qingwei Lin, Bo Qiao, Hongyu Zhang, Yingnong Dang, Chunyu Xie, Xinsheng Yang, Qian Cheng, Ze Li, Junjie Chen, Xiaoting He, Randolph Yao, Jian-Guang Lou, Murali Chintalapati, Furao Shen, and Dongmei Zhang. Robust log-based anomaly detection on unstable log data. In Proceedings of the 2019 27th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering, ESEC/FSE 2019, page 807–817, New York, NY, USA, 2019. Association for Computing Machinery
Sasho Nedelkoski, Jasmin Bogatinovski, Alexander Acker, Jorge Cardoso, and Odej Kao. Self-attentive classification-based anomaly detection in unstructured logs. In 2020 IEEE International Conference on Data Mining (ICDM), pages 1196–1201, 2020.
Yukyung Lee, Jina Kim, and Pilsung Kang. Lanobert : System log anomaly detection based on BERT masked language model. CoRR, abs/2111.09564, 2021.
Toufique Ahmed, Supriyo Ghosh, Chetan Bansal, Thomas Zimmermann, Xuchao Zhang, Saravanakumar Rajmohan. Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models. https://arxiv.org/abs/2301.03797
J. Audibert, P. Michiardi, F. Guyard, S. Marti, and M. A. Zuluaga,“USAD: unsupervised anomaly detection on multivariate time series,” in KDD ’20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Virtual Event, CA, USA, August 23-27, 2020. ACM, 2020, pp. 3395–3
Zilong He;Pengfei Chen;Tao Huang.Share or Not Share? Towards the Practicability of Deep Models for Unsupervised Anomaly Detection in Modern Online Systems[A].2022 IEEE 33rd International Symposium on Software Reliability Engineering (ISSRE)[C],2022