高并发系统设计--监控_网站并发数监控-CSDN博客

本文链接：https://blog.csdn.net/hnsitsing/article/details/108319262

系统监控是为了快速地发现和定位业务系统中出现的问题。在构建系统监控的过程中，一般需关注以下三方面问题：

一般服务层需要监控四个指标，分别为延迟、通信量、错误和饱和度。

一些特殊的系统也有特殊的监控指标，例如：数据库主从延迟数据、消息队列的堆积情况、缓存的命中率等等

监控指标的采集，一般会依据采集数据源的不同选用不同的采集方式，总结起来，大概有以下几种类型：

在采集到监控数据之后，对它们进行处理和存储了。一般会先用消息队列来承接数据，主要的作用是削峰填谷，防止写入过多的监控数据，对监控服务产生影响。
可以部署两个队列处理程序，来消费消息队列中的数据。

一个处理程序接收到数据后，把数据写入到 Elasticsearch，然后通过 Kibana 展示数据，这些数据主要是用来做原始数据的查询。
另一个处理程序是一些流式处理的中间件，比如 Spark、Storm。接收数据后会做一些处理，这些处理包括：解析数据格式。从里面提取诸如请求量、响应时间、请求 URL 等数据；对数据做一些聚合运算。

一般从不同的数据源中采集了很多的指标，最终在监控系统中一般会形成以下几个报表：

访问趋势报表：展示了服务整体的访问量、响应时间情况、错误数量、带宽等信息。它主要反映的是服务的整体运行情况，帮助你来发现问题。
性能报表：这类报表对接的是资源和依赖服务的埋点数据，展示了被埋点资源的访问量和响应时间情况。它反映了资源的整体运行情况。
资源报表：这类报表主要对接的是使用 Agent 采集的资源的运行情况数据。当你从性能报表中，发现某一个资源出现了问题，那么就可以进一步从这个报表中，发现资源究竟出现了什么问题，是连接数异常增高还是缓存命中率下降。这样可以进一步帮你分析问题的根源，找到解决问题的方案。