CDN监控系统（一）

最新推荐文章于 2023-12-02 10:53:06 发布

zengxiaobai

最新推荐文章于 2023-12-02 10:53:06 发布

阅读量1.4k

点赞数

分类专栏：监控系统运营经验

本文链接：https://blog.csdn.net/qq_39015563/article/details/103460749

版权

15 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

CDN监控系统（一）

监控系统不仅仅是为了告警，在人工智能里面只有反馈收敛机制的系统才能不断进化智能。监控系统要能反馈形成闭环，不断正反馈。避免问题而不是发现问题：

针对开发，需要完善代码，日志、接口、甚至开发管理。
针对运营，如何快速发现、排查、解决问题，避免问题（devops aiops）。
介绍系统避免直接从软件开始介绍而是从业务到要解决的问题以及如何闭环，软件只是工具，意识和思想更加重要。

最早在讨论监控系统的愿景中，希望能做以下要求：

避免泛洪
针对告警要严格审核，不需要立即处理的坚决不要告警，（注意监控告警和监控运营的区别，可以放到运营平台后续分析处理）
自动化分析
除了告警以外，最好是能提供更多方便排查的信息。比如cache 出现域名 5xx 状态码告警，需要联动大数据平台或者工具：（不一定要立即做到以下过程，但至少第一步需要做到）
1. 找到该类型 5xx 最多的 top 机器
2. 在 top机器根据日志判断 5xx 的来源（源返回？缓存节点返回？负载均衡节点返回？哪一个环节出的问题。节点软件最好调用公有的错误状态码返回接口，并在该接口中置一些调试信息，输出到访问日志，可以方便迅速定位）
区别错误预防和错误告警
比如服务软件影响并发数的一个重要参数是 listen baklog 队列大小，可以使用 ss -nlp |grep nginx 查看。如果第三列太小是有问题的。不应该把baklog 放入监控而是需要跑一个上线前的预检测：
1. 监听并发数是否太低（隐藏的问题并发太大时偶尔建联不成功）；
2. 日志或者输出文件有没有回滚（包括引用的第三方库是否暗藏日志，可以用工具https://github.com/zengxiaobai/systemtap-scripts iostatic.stap 查看库是否在某个角落偷偷打印日志）可能导致磁盘满
3. check_service 自重启上报告警, 开机自重启
4. check_core 和clean core，可能导致磁盘满

现在开始接监控系统，对告警结合网上的描述有些总结很好：

告警收敛（PS：收敛的基本策略：减少输入、分类、包含、屏蔽、合并）

告警系统的高可用性

当没有告警时怎么确定是真的正常还是告警系统挂了？https://blog.csdn.net/qq_39015563/article/details/84749241

告警系统和运营系统结合使用

监控指标

机器级别

网络级别

系统级别

软件级别

关注