可观测平台：滴滴可观测性的实现

滴滴技术

于 2023-09-12 21:00:15 发布

阅读量4.2k

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/didi_tech/article/details/132843742

版权

可观测性（Observability）是近年来备受关注的话题。那什么是可观测性？别急，让我们先从一个常见的场景开始：

你是一个一线开发同学，在某天上班路上收到了一个电话报警，提示某个接口的错误数超过了阈值 30。得益于公司监控团队做的所谓 chatops，几经周折后，你终于在 IM 中打开了对应的监控图表，发现当前的错误数似乎比之前多了一些。

作为服务开发者的你，昨天晚上部署了一个新版本，并且依赖的服务好像也做了变更。你开始猜测这个报警是否与你昨晚的上线有关，但怎么也回忆不起来昨晚依赖服务的变更内容了。

你的组长打电话过来询问报警的情况。搞不清状况的你只能回答”我需要看一下”。你打开电脑连上热点并登录上了机器，tail -f xxx.log | grep -E 'error|timeout|code=9527'。一通猛如虎的操作，你发现了问题所在，是你依赖的另一个服务延迟过高导致。和你的上线无关，和昨晚变更的依赖服务也无关。

上述这个场景，很多同学都遇到过。我们从中会发现一些问题：

缺乏进一步分解和深入分析的能力：得到监控产出的图表后，无法进行进一步的分解，我们不得不跳出当前上下文，使用如 tail、grep、tcpdump、strace 等工具进行问题追查。
复杂的微服务架构难以定位问题来源：因为复杂的微服务架构，无法确定问题源自哪里，是服务自身还是依赖的服务出现问题。
难以确定合理的报警规则：

最低0.47元/天解锁文章

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
可观测平台：滴滴可观测性的实现

可观测性（Observability）是近年来备受关注的话题。那什么是可观测性？别急，让我们先从一个常见的场景开始：你是一个一线开发同学，在某天上班路上收到了一个电话报警，提示某个接口的错误数超过了阈值 30。得益于公司监控团队做的所谓 chatops，几经周折后，你终于在 IM 中打开了对应的监控图表，发现当前的错误数似乎比之前多了一些。作为服务开发者的你，昨天晚上部署了一个新版本，并且依赖的服...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。