技术洞见
文章平均质量分 92
技术洞见
云观秋毫
Kindling - OriginX故障根因推理引擎,专家智慧经验精准梳理各类分散监控指标与日志,自动化 Tracing 关联分析生成可解释的故障根因报告
展开
-
Kindling-OriginX 在快手 Staging 环境的异常诊断效果分享
Kindling-OriginX 并不直接提供 Trace 能力,而是采用接入 Trace 数据的形式,即通过接入目前成熟的 Trace 产品与提供标准接入 SDK 方 式,例如 Skywalking、OpenTelemetry、ARMS 等,利用 eBPF 能力将 Trace 数据进行扩展,将其与底层的系统调用相关联,进而实现整 的可观测性,消除程序执行与 Trace 数据中的盲区。假设极端情况,存在故障的实例的请求时延在 24h 内一直都很高,那么后续的请求也会被判断为正常请求,产生漏判。原创 2024-07-04 14:57:25 · 652 阅读 · 0 评论 -
解密北极星指标体系如何实现根因分析
当前人为定位故障主要依赖于指标告警,但是现在绝大多数指标反映的程序执行结果,并未对程序执行过程提供更多的信息。举例说明,CPU利用率是程序执行完代码之后的CPU的被使用的反映,内存利用率是程序已经使用内存的执行结果,原创 2024-04-28 10:22:41 · 573 阅读 · 0 评论 -
可观测性工具的盲区与故障排查困局
Kindling-OriginX 的故障报告中,完成了相关指标,日志和tracing的完美集成,只呈现用户需要看的故障传播链路分支和指标,旁路无关分支和故障不相干指标也不会呈现,日志也是故障时刻前后的相关节点日志。如果运气好,是可以直接呈现某段代码的问题,比如问题就是SQL语句慢,或者执行了非常多次的redis操作导致整个请求慢,但是仍然有很多的时候只呈现了 Controller 方法执行时间长。等待事件完成之后,线程状态变成Runnale等待cpu调度,如果此时CPU资源紧张,就会出现很长的等待时间。原创 2024-01-09 17:39:50 · 847 阅读 · 0 评论 -
Log | Metrics | Trace的联动方式探讨
可观测性三大支柱联动性不好曾经询问已经使用可观测性相关软件的用户群体,对于他们来说最需什么功能的时候,很多用户的反馈都是Trace、Metrics、Log三者的联动性不好,是未来想完善可观测性的重要方向。业界有很多专家都在研究这个问题,但是体验效果似乎仍然不好,这里谈下我们的理解,抛砖引玉,欢迎更多的探讨。Log、Metrics、Trace三者集成难题可观测性三大支柱集成难题主要因为以下几点1.缺乏标准与协议在opentelemetry没有成熟的2021之前,很多公司至少已经完成原创 2024-01-12 10:14:51 · 970 阅读 · 1 评论 -
内核视角下持续剖析 VS 代码视角下的持续剖析
持续剖析(Continuous Profiling)是一种软件性能优化技术,旨在实时收集程序运行时的性能数据,如CPU使用率、内存分配、线程锁等待时间等。这些数据通常通过在代码中嵌入剖析器(Profiler)来收集,剖析器能够监测和记录应用程序在执行过程中的各种性能指标。持续剖析的目标是帮助开发者理解应用程序在生产环境中的实际运行性能,从而发现性能瓶颈和优化机会。与传统的剖析(通常在开发或测试阶段进行)不同,持续剖析强调在应用程序的整个生命周期内,尤其是在生产环境中不断进行性能监控和优化。原创 2024-02-22 14:23:53 · 1286 阅读 · 1 评论 -
AIOps实践中常见的挑战:故障根因与可观测性数据的割裂
在数字化时代,运维团队面临的挑战前所未有。他们不仅要确保系统的高可用性和高性能,还要快速响应并解决故障,以减少对业务的影响。在这种背景下,运维团队急需工具和技术,能够帮助他们提高效率,减轻负担。AIOps(人工智能运维)应运而生,旨在通过应用人工智能和机器学习技术来自动化监控、预测、优化和故障排除过程。原创 2024-03-05 14:18:49 · 921 阅读 · 0 评论 -
Trace实践的常见挑战:客户端数据与服务器端时延不一致
另外如果从client角度来看,调用就是rpc封装的函数,这个函数的实现绝大多数是没有问题的,但是也可能出现以下这种情况:client端出现GC,或者DNS寻址出现问题,也就是问题出现在了认知盲区,不知道client可能会出现问题。因为RPC的函数调用被封装成了本地函数调用,有些开发可能都不知道自己调用的函数其实是远程RPC调用,所以他们印象中的程序执行是这样的:client端执行RPC之后,Server端立马响应。在一切正常的时候,图中紫色部分消耗的时间是非常少的,基本可以忽略。原创 2024-03-12 13:53:04 · 985 阅读 · 0 评论 -
故障注入是检验可观测性建设成熟度的有效方法
混沌工程是一种方法论,而混沌工程的核心就是注入故障。通俗理解,以应用为出发点,在各种环境和条件下,给应用系统注入各种可预测的故障,以此来验证应用在面对各种故障发生的时候,它的服务质量和稳定性等能力。原创 2024-03-14 13:42:23 · 897 阅读 · 0 评论