高可用系列六：服务监控

shin_chen_名字不要重复

于 2024-05-27 14:58:49 发布

阅读量460

点赞数 7

分类专栏：高可用文章标签：系统架构微服务监控告警

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shin627077/article/details/139238423

版权

高可用专栏收录该内容

8 篇文章 1 订阅

订阅专栏

服务监控的目的是为了尽早发现出现的问题，减少或避免可能造成的损失。

监控首先要解决的问题是监控什么，即监控的方法，其次是如何有效告警，最后是如何跟踪处理告警

如何监控

根据监控的方式，一般有pull和push两种，即监控服务主动拉取相关监控对象的健康状态和监控对象主动push监控事件到监控服务本身。

然后可以根据监控的对象来进一步区分，主要有基础设施、中间件、应用程序。

基础设施

基础设施主要就是服务器节点本身，也可以说是操作系统层面，首先是机器节点是否正常运行：

1、系统的可触达，一般通过pull的方式，定期检查监控程序是否可触达监控对象，即服务器的node信息采集器，比如Prometheus 的node exporter。

2、系统指标，比如cpu、内存、硬盘的使用情况

中间件

这里的中间件指的是第三方或者自己开发的独立组件服务，比如mysql、MQ等等。因为中间件非常多，这里拿RocketMQ举例：

1、系统的可触达，也即监控触达，即系统本身的监控指标入口可以被访问到。

2、消息延迟，比如一段时间内（如5分钟）消息的延迟情况，可以知晓是否系统需要增加队列和消费者来提升消费能力

3、系统本身的GC等情况

4、死信，即是否下游服务出现异常，导致死信产生，此时除了监控报警外，还应监听记录死信消息，以便后续进行消息回放

5、事务消息，当事务消息确认到达阈值，此时RocketMQ只会记录一条日志，此时需要监听日志或修改相关实现，进行事务消息记录、告警

应用程序

这里的应用程序特指团队自身开发的业务信息，主要可以分为通用指标和业务告警事件。

通用指标包括服务的失败率、访问延迟、服务GC等所有服务通用的指标。

业务告警则是，业务额外定义的特定异常和特定事件，需要人工介入的情况。比如异步处理中因为代码问题，某个业务要求没有达到，引发的系统业务告警。

如何有效告警

当告警事件发生，需要通过邮件、电话、短信或企业微信、钉钉等将告警信息发出来。

告警是一个先增后减的过程，先增指的是，需要找到、完善相关的告警指标，此时是增加的过程。后减指的是，某些告警情况实际并不需要人工知晓和介入处理，此时要剔除相关的告警。

因此有效告警的关键在于，告警出来以后的信息就需要人工介入，而把一些不需要的或者误报的情况剔除、重复报警的事件进行告警抑制，使得接收到告警时能保持“敏感度”，避免出现如一天到晚告警，相关人员对于告警进入“疲态”，使得告警信息不被重视，从而失去的告警的实际意义。

其中一个典型需要解决的告警问题是解决毛刺，比如瞬时的CPU飙升，此时可以将该指标转化为监控一段时间的指标状态，即持续多少时间，居高不下时方进行告警。

最后，告警需要提供有效信息，可以在告警信息中将实际告警的服务/机器、告警级别、告警指标、告警原因、告警点明确出来，如果是应用告警，应提供具体的如订单信息等关键内容，也可结合apm工具，提供对应的调用链信息。

告警跟踪与处理

告警需要进行告警分级，从告警系统本身定义到人工二次辨认，首先对告警需要进行分级，对于立即处理的，则告警发生就需要进行处理。其他的，告警系统可以在告警发送端记录告警信息，直接实现告警的处理系统或批量导入企业的问题处理系统，进行告警问题的处理跟踪。这里需要注意的是告警问题的合并，即相同/类似的告警根据特定规则进行告警合并，使开发人员专注于解决问题。

本作品的版权所有权归作者所有，受法律保护。未经作者书面许可，任何个人或组织均不得以任何形式使用、复制、修改、传播、展示或在未获得授权的情况下进行商业利用。

shin_chen_名字不要重复

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
高可用系列六：服务监控

服务监控的目的是为了尽早发现出现的问题，减少或避免可能造成的损失。监控首先要解决的问题是监控什么，即监控的方法，其次是如何有效告警，最后是如何跟踪处理告警。
复制链接

扫一扫

专栏目录

shin_chen_名字不要重复 CSDN认证博客专家 CSDN认证企业博客

码龄15年

25: 原创

12万+: 周排名

5万+: 总排名

14万+: 访问

: 等级

930: 积分

104: 粉丝

118: 获赞

53: 评论

141: 收藏

私信

关注

热门文章

分类专栏

大模型 1篇
高可用 8篇
webflux 1篇
tensorflow 5篇
issues 6篇
serving 3篇
java 5篇
python 3篇
bazel 1篇
下载 2篇
conda 1篇
numpy 1篇
管理 1篇

最新评论

高可用系列二：绝对核心——服务请求幂等
CSDN-Ada助手: 恭喜作者发布了第19篇博客，题为“高可用系列二：绝对核心——服务请求幂等”。文章内容深入浅出，对服务请求幂等这一核心概念进行了详细讲解，让读者受益匪浅。希望作者能够继续保持创作的热情和耐心，为我们带来更多有深度、有实用性的文章。建议可以在未来的创作中，结合实际案例或者经验分享，让读者更易于理解和应用。期待作者的下一篇作品！
高可用系列之重要的小点：请求/重试机制
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“高可用系列之重要的小点：请求/重试机制”非常吸引眼球，内容也十分精彩。继续保持创作的热情和耐心是非常值得称赞的，希望您能够继续分享更多关于高可用性的知识，或者深入探讨一些实际应用中的挑战和解决方案。期待您的下一篇博客！
高可用系列一：高可用问题是如何产生的
CSDN-Ada助手: 恭喜博主发布了第17篇博客，深入探讨了高可用问题产生的原因，让读者们更加了解这个领域。希望博主能继续坚持创作，分享更多有价值的内容。建议下一步可以结合实际案例或者具体技术进行分析，让读者更易于理解和应用。期待您的更多精彩文章！祝您一切顺利！
高可用系列特殊场景：第三方限时唯一访问令牌
CSDN-Ada助手: 恭喜作者发布了第18篇博客！标题中的“第三方限时唯一访问令牌”这个特殊场景听起来很有挑战性，我对您的创意和专业知识表示钦佩。希望您能继续分享更多关于高可用系列特殊场景的经验和见解，或许可以考虑探讨一些实际案例，或者分享一些解决问题的实用技巧。期待您的下一篇作品！
《管理：使命、责任、实务》之实务篇私人读书笔记
shin_chen_名字不要重复: 原稿已更新

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。