饿了么监控体系:从架构的减法中演进而来

这篇分享讲述了饿了么监控体系从2015年开始的三个演进阶段,从多套分散的监控系统逐步整合到统一的EMonitor+LinDB平台。在演进过程中,面临的问题包括多系统切换导致的问题定位效率低下。解决方案是通过场景化监控,如业务监控、应用监控和IaaS层监控,并利用Tracing将各层数据串联。此外,自研的LinDB数据库支持大规模监控数据存储。最后,强调了监控系统的一站式体验和日志集成的重要性。
摘要由CSDN通过智能技术生成

分享概要

1、背景

2、遇到的问题

3、场景化

4、系统设计

大家好!很荣幸有这样的机会和大家交流,今天分享的主题为《饿了么监控体系的演进》。

我差不多是2015年中加入饿了么,主要是负责饿了么整个监控平台的搭建,从0开始搭建这套监控系统。

今天主要从以下四块给大家讲一下,整个过程我们遇到了哪些问题,怎么来解决这些问题,以及用怎么样的设计来支撑起这个系统。

一、背景

其实整个饿了么监控系统在演进过程中主要分为如下3个阶段:

  • 第一阶段:主要由Statsd/Graphite/Grafana负责业务层的监控,ETrace负责全链路监控,Zabbix负责服务器层面的监控,ELog负责分布式日志搜索;
  • 第二阶段:整个饿了么也从单IDC演进成异地多活架构,所以对监控也提出了更高的要求,基于这个我们也自研LinDB,以支持多活架构下的监控,Zabbix慢慢被ESM/InfluxDB/Grafana所替换,使用ELK替换原来的日志方案;
  • 第三阶段:主要做一个减法,即把原来StatsD/Graphite/ETrace/ESM/InfluxDB统一到了EMonitor+LinDB这样的平台,以提供给用户一套统一的监控平台,日志开始使用阿里云的SLS;

二、遇到的问题

在这过程中我们主要遇到了哪些问题,然后我们怎么去解决这些问题。

之前也介绍了原来有多套监控系统,当出现问题的时候,需要从多套监控系统里面回来切换,其实这种上下文的切换是很影响定位问题的时间,一旦故障时间很长的话就意味着故障的影响范围也会变大。

那我们怎么来解决这个问题呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值