1 运维简介 1-1 监控误区和挑战 1-2 墨盒和白盒监控 1-3 度量值的收集 2 Prometheus简介 2-1 Prometheus组件及架构 2-2 Prometheus数据模型 2-3 核心的指标 2-4 指标摘要及聚合 3-1 实验环境说明 3-2 Prometheus二进制部署 3-3 Prometheus容器方式部署 4-1 监控Prometheus本身 4-2 配置命令详解 4-3 全局配置探讨 4-4 配置采集目标 4-5 标签重写原理 4-6 标签使用案例剖析 5-1 node-exporter部署 5-2 node-exporter使用案例 5-3 监控docker的容器 5-4 抓取的生命周期 6-1 选择器及标签匹配器 6-2 范围、偏移及子查询 6-3 PromQL的操作符 6-4 PromQL函数 7-1 计算CPU的使用率 7-2 计算CPU的负载 7-3 计算内存使用率 7-4 计算内存饱合度 7-5 磁盘使用率 7-6 服务状态 7-7 metadata和up指标 7-8 查询的持久化 7-9 Grafana可视化 8-1 基于文件的服务发现 8-2 基于API和DNS的服务发现 9-1 alertmanager工作方式 9-2 alertmanger集群部署 9-3 alertmanager基本配置 9-4 监控alertmanager 9-5 添加警报规则 9-6 alertmanager路由的定义 9-7 定义接收器和模板 9-8 警报的静音 10-1 可靠性和容错性 10-2 可扩展性 11-1 mtail的部署与使用 11-2 Blackbox部署与使用 12-1 pushgateway部署 12-2 pushgateway使用 13-1 promtool工具探索 13-2 log和endpoints 14-1 k8s部署alertmanager 14-2 部署nodeExporter 14-2 部署nodeExporter 14-3 node-exporter作业 14-4 node-exporter规则 14-5 监控Kubernetes本身 15-1 kube-prometheus部署 15-2 监控部署的服务 16-1 邮件告警 16-2 微信通知 16-3 钉钉通知 17-1 metallb部署 17-2 ingress-nginx的监控 17-3 ingress及dns配置 17-4 监控控制器 17-5 k8s调度器监控 17-6 kube-proxy监控