在使用可观测产品或监控工具做故障定位过程中,您是否遇到过以下问题:
-
故障场景难以清晰定义
-
对故障定位的级别和颗粒度不满意
-
故障定位时间所需时间太长
-
对于定位结果的可解释性总是摇头
-
所有故障定位效果难以量化的问题
RootTalk SandBox 可以帮助您解决这块问题。注册即可体验快速故障定位的快感。
我们开放了大量在实际生产中常见的故障场景,只需一键注入故障,就能在3分钟之内获得一个详尽可解释的故障根因分析结果。
分析结果直指根源,分析粒度深入到服务接口,连接池,函数堆栈,SQL语句,进程,系统资源等级别。
当故障发生时,产生的关联告警太多,难以判断?基于根因收敛的告警会告诉你问题在哪,影响了哪些其它的服务,进程或系统。
01 注册登录,开始体验
登录网页 RootTalk Sandbox
填写相应信息进行注册。
随后根据注册的用户名和密码即可登录。
利用RootTalk SandBox可以实现以下2种目的:
-
通过故障注入演练,验证故障定位效果
-
体验告警的根因收敛
02 故障注入演练,并验证定位效果
注入故障
点击注入故障后,通常需要等待2到3分钟,然后会自动弹出DataBuff平台的查看地址,点击跳转即可自动查看DataBuff平台。
验证故障定位能力
跳转到DataBuff平台后,即可查看到对应的故障信息。
点击查看故障详情。
页面中展示了这次注入故障的整个故障树。故障树的最后一个节点,即为根因节点,根因节点的第一个问题即为根本原因,可以验证该原因和注入的故障是否匹配,如果匹配则代表DataBuff平台定位成功。
对故障树的解读
-
每个节点都是一个服务或者别的实体,如主机;
-
每个节点都有自己的详细问题,按照出口、自身、入口的方式进行排序;
-
每个问题都有更细粒度的维度下钻;
-
每个下钻结果都有地址链接可验证。
整个故障树的排障流程非常符合人工的排障流程。
点击链接,可以进一步验证。
03 告警的根因收敛体验
很多时候,当故障发生时,监测平台会触发大量的关联事件(比如100个事件),因此需要一定的收敛能力,对这些事件进行聚合并形成有效告警,降低对用户的干扰。
普通的告警收敛一般是通过时间、Tag标签、服务名的方式进行收敛。以服务名为条件进行收敛的情况下,100个事件中如果有17个受影响服务,就会形成17个告警。
告警的根因收敛则是将根因相同的事件收敛在一起。100个根因相同的事件,最终只会形成1个告警,可以进一步降低干扰。
利用RootTalk SandBox 可以体验Databuff的根因收敛能力。具体操作如下。
DataBuff平台中开启AI收敛
关闭服务收敛,开启AI收敛。
注入故障
与上一节中的故障注入步骤相同,在此不再赘述。
在DataBuff平台上查看告警收敛效果
在这一条告警中,收敛了根因相同的各个服务的事件。
04 结尾
以上就是关于RootTalk SandBox的使用方法,快来注册体验吧~