Docker实战系列——第三话--docker 监控（一）-- what and why？

最新推荐文章于 2021-07-01 17:14:13 发布

独孤文彬

最新推荐文章于 2021-07-01 17:14:13 发布

阅读量545

点赞数

分类专栏： docker容器技术文章标签：异常运维

docker容器技术专栏收录该内容

9 篇文章 3 订阅

订阅专栏

监控的价值

在运维体系中，监控是非常重要的组成部分。通过监控可以实时掌握系统运行的状态，对故障的提前预警，历史状态的回放等，还可以通过监控数据为系统的容量规划提供辅助决策，为系统性能优化提供真实的用户行为和体验。

节约成本。通过精确的监控提前发现异常提前进行预警，就可以在故障发生前就解决故障或实施应急预案，从而减少因故障带来的经济损失。还可以通过监控了解系统资源的使用情况，对空闲的资源可以进行重新规划，也能帮助节约成本。
提高效率。需要对系统进行分析时直接拉取监控数据生成趋势图，可以很清晰的展示系统存在什么样的问题。比如访问连接突增，内存回收异常，数据库连接异常等问题，可以帮助快速定位到故障原因，解决故障。
提高质量。通过对系统运行的历史监控数据进行分析，及时找到系统的性能瓶颈进行优化，可以提高系统的运行质量。不仅可以从基础设施的性能角度，还可以从应用性能的角度进行端到端的性能优化，有效提高用户的体验。

完整的监控体系

1. 监控数据采集的时效与精确
2. 监控数据采集存储与归档
3. 监控数据的图形化展示
4. 监控数据的自动化分析与联动处理
5. 监控的告警及自动化处理
6. 监控工具自身的安全控制
7. 监控告警的响应及跟踪

一个完整的监控体系是从监控数据的采集开始，再将数据进行存储，处理从而产生价值。比如智能生成分析报告，可图形化展示，通过监控联动完成高可用，伸缩，限流等事件处理，还有就是监控告警了。对于运维人员而言最高兴的莫过于由于一条告警短信后马上又再收到一条自动恢复的短信了，所以在监控体系里，故障告警的自动化处理也是非常重要的。

监控数据的采集方式

• 主动输出
提前在应用中埋点，应用主动上报。比如一些应用系统的业务状态，可以通过在日志中主动输出状态用于采集。

• 远程接入
通过对应用进程接口调用获取应用的状态。比如使用JMX的方式连接到java进程中，对进程的状态进行采集。

• 嵌入式
通过在进程中运行agent的方式获取应用的状态。如目前的APM产品都是通过将监控工具嵌入到应用内部进行数据采集。

• 旁路式
通过外部获取的方式采集数据。比如对网站url的探测，模拟业务的报文 ，对服务器的ping，流量的监控。可以通过在交换机上将流量进行端口复制，将源始流量复制到另一个端口后再进行处理，这样这业务系统是完全没有侵入。

• 入侵式
不同于嵌入式，入侵式的agent是独立运行的进程，而不是运行在进程中。这个目前监控工具比较常用的方式，比如zabbix，在主机上运行一个进程进行相关数据的采集。

• CLI方式
命令行的方式是最基本的方式，比如在linux系统上使用top，vmstat，netstat写一些shell脚本进行数据的采集，再把数据存储在文本文件中进行处理。
在不同的场景可以选用不同的数据采集方式，比如要实时看主机的CPU使用情况，登陆到主机用CLI方式用top命令就可以看到系统CPU的使用和进程CPU的使用情况。比如有一些应用的状态需要记录，就一定要在日志里输出相应的数据。而在数据采集时需要注意以下三个问题：

1、采集的时间间隔

2、监控工具自身的安全控制
有些监控工具可能是时时运行，特别是侵入式监控，如果运行不当，自身就可能造成故障，比如执行过程异常不释放资源，造成高CPU占用；比如进程结束异常，不停的重启相同的进程；比如日志级别设置过低，大量日志输出，影响进程性能和占用大量磁盘空间。所以做监控时一定要遵循有自我安全控制的能力。监控工具在拿到生产环境中运行前，一定要先在测试环境中进行一段时间的试运行 。

3、触发式的数据采集
需要关注异常点的现场数据采集，比如threaddump，heapdump，主机的性能数据等。这些故障点的数据重启后就会失去，有些故障不能重现时，相关的分析数据就很重要了，所以对于这些数据，需要进行触发式的数据采集。当满足某些条件时触发采集，而在平常不运行。

容器的监控方案

传统的监控系统大多是针对物理机或虚拟机设计的，物理机和虚拟机的特点是静态的，生命周期长，一个环境安装配置好后可能几年都不会去变动，那么对监控系统来说，监控对像是静态的，对监控对象做的监控配置也是静态的，系统上线部署好监控后基本就不再需要管理。

虽然物理机，虚拟机，容器对于应用进程来说都是host环境，容器也是一个轻量级的虚拟机， 但容器是动态的， 生命周期短，特别是在微服务的分布式架构下，容器的个数，IP地址随时可能变化。如果还采用原来传统监控的方案，则会增加监控的复杂度。比如对于一个物理机或虚拟机，我们只要安装一个监控工具的agent就可以了，但如果在一个物理机上运行了无数个容器，也采用安装agent的方式，就会增加agent对资源的占用，但因为容器是与宿主机是共享资源，所以在容器内采集的性能数据会是宿主机的数据，那就失去在容器内采集数据的意义了。

而且往往容器的数量比较多，那么采集到的数量也会非常多，容器可能启动几分钟就停止了，那么原来采集的数据就没有价值了，则会产生大量这样没有价值的监控数据，维护起来也会非常的复杂。那么应该如何对容器进行监控呢？答案是在容器外，宿主机上进行监控。这样不仅可以监控到每个容器的资源使用情况，还可以监控到容器的状态，数量等数据。

单机容器监控

单台主机上容器的监控实现最简单的方法就是使用命令Docker stats，就可以显示所有容器的资源使用情况，如下输出：

虽然可以很直观地看到每个容器的资源使用情况，但是显示的只是一个当前值，并不能看到变化趋势。而谷歌提供的图形化工具不仅可以看到每个容器的资源使用情况，还可以看到主机的资源使用情况，并且可以设置显示一段时间内的越势。以下是cAdvisor的面板：

而且cAdivsor的安装非常简单，下载一个cAdvisor的容器启动后，就可以使用主机IP加默认端口8080进行访问了。

跨多主机容器监控

cAdivsor虽然能采集到监控数据，也有很好的界面展示，但是并不能显示跨主机的监控数据，当主机多的情况，需要有一种集中式的管理方法将数据进行汇总展示，最经典的方案就是 cAdvisor+ Influxdb+grafana，可以在每台主机上运行一个cAdvisor容器负责数据采集，再将采集后的数据都存到时序型数据库influxdb中，再通过图形展示工具grafana定制展示面板。
这里写图片描述