2023大数据挑战赛赛题说明+决赛评分标准回顾

最新推荐文章于 2024-03-09 12:12:14 发布

数据派THU

最新推荐文章于 2024-03-09 12:12:14 发布

阅读量1.5k

点赞数

文章标签：大数据网络

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247614274&idx=4&sn=50869d8253957765e365f1b7686f5341&chksm=e9e036c9de97bfdf85f23c6d5b689341766d5edb7ff92061257a13bb798dcc8bf1d3859d7983&scene=126&sessionid=0

版权

题目背景

图1. IT系统

IT系统是各类业务及服务以及其运行的基础设施与环境的总称。图1勾勒了IT系统的大致轮廓，包括各种各样的业务和相应的服务，这些业务涉及到人民生活的衣食住行方方面面。另外，支持这些业务和服务运转的基础设施和环境也属于IT系统，包括机房的电力设备、机柜、空调等等⼀系列的设施。

图2. 服务依赖关系示意

现代的IT系统复杂性极高，大的系统会包含几⼗万的服务和节点，非常庞大。当⼀个服务发生问题时，往往有大量的其他服务跟着出问题，我们就是要在这样纷繁复杂的系统当中确定问题发生的位置。这并不简单⸺有的复杂故障往往需要耗费非常多的精力去排查问题。

好的方面是，我们有非常丰富的对系统的监控数据可以作为发现系统故障的参考。总结起来，我们有三大类数据⸺指标、日志、追踪⸺可以用来排查系统的故障，如图3所示。

图3. 三大数据源

指标是⼀种可以最快速发现系统异常的观测数据。因为⼀般指标数据可以非常直观地用图表的形式展示出来，很多情况下我们用肉眼就可以分辨系统当中是不是出现异常情况了。⼀旦哪个指标，就像我们图4中的绿线所展示的这样，有了⼀个突然的变化，那可能就要引起警觉了，这有可能是系统有故障的⼀个提示。那就要去详细地查看系统是不是真的有问题，这时候就用到了日志。

日志是对系统中单个节点或者说单个组件运行状态的观测记录，它是内容最为详实的单点运行记录。日志是分级别的，⼀般来说，运行的正常记录可以是info级别的日志，有⼀些问题但是还不至于影响功能的，可能会打成warning级别的日志，再严重⼀些的事件，会影响到运行和功能的，就打成error级别的日志。日志中记录了组件的动作和提示信息，比如说数据库执行了⼀次查询操作，耗时多少毫秒；主机进行了⼀次内存清理；服务进行了⼀次业务调用结果返回的结果格式错误了等等。通过逐步去查看每个节点的日志，我们就能够⼀步⼀步定位到故障报错的具体位置。这个过程往往是很繁琐的，因为我们要逐步地顺藤摸瓜。那我们就可能需要追踪数据来辅助缩短这个过程。

追踪数据记录的是⼀次请求的完整调用过程，涉及到多个服务、多个接⼝之间的调用关系、耗时、成功与否等信息。追踪数据可以形成像左下角这张图中展示的调用关系，这样我们就能清楚地看出来，⼀个服务可能受到哪些服务的影响，哪个机器上执行的请求失败得最多，这样我们在排查问题的时候，正常的调用模式我们不用去管，只沿着有问题的调用模式顺藤摸瓜即可。这样可以减少⼀些运维⼈员查看日志的频率和数量。

传统运维发现故障的方法总结起来就是，从指标发现异常，用日志深挖故障，用追踪数据确认传播关系。这个过程循环下来，就是传统运维发现故障的手段。

图4. 指标、日志、追踪数据长什么样子

精简版解释

当IT系统出现故障时，运维⼈员必须能够快速及时地发现故障，并对故障进行应急响应或修复。单⼀数据源 (指标，日志，追踪) 中往往无法提取到充分的特征来判定故障，从而导致对故障的漏报或误报。IT系统多源数据故障发现，是指在IT系统中收集来自多个数据源的数据，并通过分析这些数据来发现故障的过程。这种故障发现方法可以在⼀定程度上弥补通过单⼀数据源进行故障发现时面临的故障特征缺失。但相比于基于单⼀数据源的故障发现，通过分析多源数据发现IT系统的故障仍需解决诸多难题：

• 场景适应性：多源数据在不同场景下的信息密度有差异，这对算法模型的适应性提出了较高的要求。

• 数据复杂性：不同源数据之间的数据粒度、数据信息分布不均匀，给数据分析带来挑战。同时多源数据包含大量噪声，这可能会掩盖故障特征的表现。

本赛题要求参赛队伍基于包含指标、日志、追踪的多源数据，采用合理的机器学习技术估计IT系统中故障源发生故障的概率。

数据情况

总体情况

1. 数据来源

云智慧混沌工程支持系统当中的⼀个具有30多个微服务的K8s架构的系统。该系统可以模拟数个不同的业务流程。

2. 注入故障方式

通过ChaosBlade对系统注入故障。比赛选手并不知道具体的故障是什么，比赛要求比赛选手找到故障源，但无需确定具体的故障类型。

3. 注入的故障类型

• 网络/端口丢包造成主机/服务无响应 (初、复)

• 网络/端口拥堵造成主机/服务响应变慢 (初、复)