Etcd几个关键的监控指标

最新推荐文章于 2024-07-03 07:31:00 发布

安享落幕

最新推荐文章于 2024-07-03 07:31:00 发布

阅读量205

点赞数 7

文章标签： etcd 数据库

本文链接：https://blog.csdn.net/weixin_42561847/article/details/139965245

版权

leader的切换频次

当Etcd通过raft协议选举出leader后，leader应该是固定不变的。如果leader一直发生切换，是非常不稳定的。Etcd提供了etcd_server_leader_changes_seen_total指标，表示Etcd的leader切换次数。生产环境如果在一个小时内发生超过三次的leader切换，需要发出告警。

提交失败次数

Etcd是一种基于日志的存储系统，无论是选主节点，还是数据存储都需要集群内大部分节点参与。在分布式系统中数据提交(proposal)失败的情况会大大增加。Etcd通过etcd_server_proposals_committed_total(已提交)、etcd_server_proposals_failed_total(提交失败)、etcd_server_proposals_pending(等待提交)表示集群的提交情况或生产环境。如果集群在一个小时内5次提交失败，可以认为是异常情况。

数据写入性能

Kubernetes集群规模如果超过了两百台，建议Etcd加装SSD硬盘，这样性能会提升很多。Etcd的性能主要取决于磁盘的读写性能，每次数据提交分离，follow节点都必须落盘后才回复leader节点。Etcd提供了etcd_disk_wal_fsync_duration_seconds_bucket(wal日志同步磁盘耗时)和etcd_disk_backend_commit_duration_seconds_bucket(数据提交写入耗时)。为了避免常委效应，这两个指标通常使用分位指标告警。如果0.99分位的wal日志磁盘同步超过0.5ms或者0.99分位的数据提交写入超过0.25ms，则发出告警。

grpc指标

无论是Etcd节点之间的交互，还是客户端连接Etcd，v3版本的API已经全部切换到grpc。相比http方式，grpc有更高的性能。Etcd通过etcd_grpc_requests_failed_total指标表示grpc请求失败的次数，除以etcd_grpc_total(grpc请求总数)得出失败率。如果大于0.1可以认为请求的失败次数过多，应该提醒注意。

安享落幕

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Etcd几个关键的监控指标

leader的切换频次当Etcd通过raft协议选举出leader后，leader应该是固定不变的。如果leader一直发生切换，是非常不稳定的。Etcd提供了etcd_server_leader_changes_seen_total指标，表示Etcd的leader切换次数。生产环境如果在一个小时内发生超过三次的leade...
复制链接

扫一扫