饿了么监控体系：从架构的减法中演进而来

JavaMonsterr

于 2022-06-15 15:49:44 发布

阅读量380

点赞数

分类专栏：程序员计算机 Java 文章标签：架构系统架构数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JavaMonsterr/article/details/125298674

版权

这篇分享讲述了饿了么监控体系从2015年开始的三个演进阶段，从多套分散的监控系统逐步整合到统一的EMonitor+LinDB平台。在演进过程中，面临的问题包括多系统切换导致的问题定位效率低下。解决方案是通过场景化监控，如业务监控、应用监控和IaaS层监控，并利用Tracing将各层数据串联。此外，自研的LinDB数据库支持大规模监控数据存储。最后，强调了监控系统的一站式体验和日志集成的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分享概要

1、背景

2、遇到的问题

3、场景化

4、系统设计

大家好！很荣幸有这样的机会和大家交流，今天分享的主题为《饿了么监控体系的演进》。

我差不多是2015年中加入饿了么，主要是负责饿了么整个监控平台的搭建，从0开始搭建这套监控系统。

今天主要从以下四块给大家讲一下，整个过程我们遇到了哪些问题，怎么来解决这些问题，以及用怎么样的设计来支撑起这个系统。

一、背景

其实整个饿了么监控系统在演进过程中主要分为如下3个阶段：

第一阶段：主要由Statsd/Graphite/Grafana负责业务层的监控，ETrace负责全链路监控，Zabbix负责服务器层面的监控，ELog负责分布式日志搜索；
第二阶段：整个饿了么也从单IDC演进成异地多活架构，所以对监控也提出了更高的要求，基于这个我们也自研LinDB，以支持多活架构下的监控，Zabbix慢慢被ESM/InfluxDB/Grafana所替换，使用ELK替换原来的日志方案；
第三阶段：主要做一个减法，即把原来StatsD/Graphite/ETrace/ESM/InfluxDB统一到了EMonitor+LinDB这样的平台，以提供给用户一套统一的监控平台，日志开始使用阿里云的SLS；

二、遇到的问题

在这过程中我们主要遇到了哪些问题，然后我们怎么去解决这些问题。

之前也介绍了原来有多套监控系统，当出现问题的时候，需要从多套监控系统里面回来切换，其实这种上下文的切换是很影响定位问题的时间，一旦故障时间很长的话就意味着故障的影响范围也会变大。

那我们怎么来解决这个问题呢？

最低0.47元/天解锁文章

博客等级

码龄3年

481
原创

184
点赞

898
收藏

210
粉丝

关注

私信

热门文章

分类专栏

程序员 480篇
计算机 480篇
Java 480篇
计算器

展开全部收起

上一篇：: 细谈八种架构设计模式及其优缺点概述

下一篇：: 全网最通俗易懂的Kafka入门

最新评论

基于Spring Boot的GraphQL项目
pk_xz123456: 这篇文章聚焦于Java开发者，以3分钟搭建GraphQL服务为卖点，详细阐述基于Spring Boot构建GraphQL项目的过程。先介绍GraphQL基础，后深入讲解搭建步骤，实用性强。
Java多线程专题之线程与进程概述
阿J~: 每个知识点讲解清晰，学到了学到了
【JAVA】值传递与引用传递
17:39: 使用别人的总结，在Java中，引用传递实际上不是传递的该引用本身，而是传递的该引用的一个副本，如果不对副本指向进行修改，那么这个副本和引用值就是同一个地址，操作副本就相当于操作引用，这里就和引用传递一致了。但是如对该副本修改了指向，那么修改的只是副本值，而不会对引用本身造成影响。
基于微前端qiankun的多页签缓存方案实践
小墨宝: 加qq请教下 564495477 关于vue-router再次进入替换了路由信息，原先的路由监听失效了的问题
【JAVA】值传递与引用传递
佛子妙煬: 建议代码写在代码块里

大家在看

手机没有root权限（手机没有root权限怎么获取）

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。