读书笔记(SRE:Google运维解密):第6章 分布式系统的监控

本文是《SRE:Google运维解密》第六章的读书笔记,主要探讨了分布式系统的监控,包括监控的定义、白盒与黑盒监控的区别、四个黄金指标、长尾问题以及监控系统设计的考量因素。强调了监控的目标是发现问题和原因,以及如何制定有效的警报策略。
摘要由CSDN通过智能技术生成
  • 绝大部分通用的术语:
    (a)监控(monitoring):收集、处理、汇总,并且显示关于某个系统的实时量化数据,例如请求的数量和类型,错误的数量和类型,以及处理用时,应用服务器的存活时间等
    (b)白盒监控(white-box monitoring):依靠系统内部暴露的一些性能指标进行监控。包括日志分析、Java虚拟机提供的监控接口,或者一个列出内部统计数据的HTTP接口进行监控。
    (c)黑盒监控(black-box monitoring):通过测试某种外部用户可见的系统行为进行监控。
    (d)监控台页面(dashboard):提供某个服务核心指标一览服务的应用程序(一般是基于Web的)。该应用程序可能会提供过滤功能(filter)、选择功能(selector)等,但是最主要的功能是用来显示系统最重要的指标。该程序同时可以显示相应团队的一些信息,包括目前工单的数量、高优先级的Bug列表、目前的on-call工程师和最近进行的生产发布等。
    (e)警报(alert):目标对象是某个人发向某个系统地址的一个通知。目的地可以包括工单系统、E-mail地址,或者某个传呼机。相应的,这些警报被分类为:工单、E-mail警报,以及紧急警报(page)。
    (f)根源问题(root cause):指系统(软件或流程)中的某种缺陷。这个缺陷如果被修复,就可以保证
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值