etcd监控指标-metrics

最新推荐文章于 2025-03-07 17:55:12 发布

一边学习一边哭

最新推荐文章于 2025-03-07 17:55:12 发布

阅读量4.7k

点赞数 2

分类专栏： # etcd 文章标签： etcd

原文链接：https://etcd.io/docs/v3.4/metrics/

版权

etcd 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了etcd的监控指标，包括服务器、磁盘和网络状态，强调了如has_leader、proposals_committed_total等重要指标在检测故障和性能问题中的作用。同时，提到了Prometheus在收集和分析etcd metrics中的角色，以及如何通过curl获取metrics。磁盘和网络延迟高的情况可能表明潜在问题，而Prometheus提供的process_open_fds等指标有助于发现资源耗尽问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Metrics

metrics用于实时监控和调试。

etcd不会保留metrics，当成员发生重启，metrics将被重置。所以etcd可结合prometheus，对etcd进行监控。

查看metrics的最简单方法就是curl ip:port/metrics

指标名称有一个 etcd 或者 etcd_debugging前缀作为其命名空间前缀，和一个子系统前缀（例如 wal、etcdserver）

etcd namespace metrics

etcd前缀下的指标用于监控和警报。它们是稳定的高级指标。如果这些指标有任何更改，将包含在发行说明中。

Server

这些指标描述了 etcd 服务器的状态。为了检测故障或故障排除问题，应密切监控每个生产 etcd 集群的服务器指标。

所有这些指标都以 etcd_server_作为前缀

名称	描述	类型
has_leader	领导者是否存在。1是存在，0不是。	Gauge
leader_changes_seen_total	看到的领导者变更次数。	Counter
proposal_committed_total	提交的共识提案总数。	Gauge
proposal_applied_total	已应用的共识提案总数。	Gauge
proposal_pending	当前待处理提案的数量。	Gauge
proposal_failed_total	看到的失败提案总数。	Counter

has_leader指示成员是否有领导者。如果成员没有领导者，则完全不可用。如果集群中的所有成员都没有任何领导者，则整个集群完全不可用。

leader_changes_seen_total计算成员自开始以来看到的领导者更改次数。领导层的快速变化会显着影响 etcd 的性能。它还表明领导者不稳定，可能是由于网络连接问题或 etcd 集群负载过大。

proposals_committed_total记录提交的共识提案总数。如果集群运行状况良好，该指标应该会随着时间的推移而增加。etcd 集群的几个健康成员可能同时拥有不同的总提交提案。这种差异可能是由于在启动后从对等体恢复、落后于领导者，或者是领导者因此拥有最多的提交。监控集群中所有成员的这个指标很重要；单个成员与其领导者之间持续较大的滞后表明该成员行动缓慢或不健康。

proposals_applied_total记录应用的共识提案总数。etcd 服务器异步应用每个提交的提案。proposals_committed_total和之间的差异proposals_applied_total通常应该很小（即使在高负载下也应该在几千以内）。如果它们之间的差异继续上升，则表明etcd服务器过载。在应用昂贵的查询（例如大范围查询或大型 txn 操作）时可能会发生这种情况。

proposals_pending表示有多少提案排队等待提交。上升的未决提案表明客户端负载很高或成员无法提交提案。

proposals_failed_total 通常与两个问题有关：与领导者选举相关的临时故障或由于集群中的仲裁丢失而导致的更长停机时间。

Disk

这些指标描述磁盘操作的状态。

所有这些指标都以etcd_disk_为前缀

名称	描述	类型
wal_fsync_duration_seconds	wal 调用的 fsync 的延迟分布	Histogram
backend_commit_duration_seconds	后端调用的提交的延迟分布。	Histogram

一个wal_fsync被称为当ETCD应用之前仍然存在，它的日志条目到磁盘。

一个backend_commit当ETCD提交的其最近的更改到磁盘的增量快照被调用。

高磁盘操作延迟 (wal_fsync_duration_seconds或backend_commit_duration_seconds) 通常表示磁盘问题。它可能会导致高请求延迟或使集群不稳定。

Network

这些指标描述了网络的状态。

所有这些指标都以 etcd_network_为前缀

名称	描述	类型
peer_sent_bytes_total	发送到具有 ID 的对等方的总字节数To。	Counter(To)
peer_received_bytes_total	从具有 ID 的对等方接收的总字节数From。	Counter(From)
peer_sent_failures_total	来自具有 ID 的对等方的发送失败总数To。	Counter(To)
peer_received_failures_total	从具有 ID 的对等方接收失败的总数From。	Counter(From)
peer_round_trip_time_seconds	同行之间的往返时间直方图。	Histogram(To)
client_grpc_sent_bytes_total	发送到 grpc 客户端的总字节数。	Counter
client_grpc_received_bytes_total	接收到 grpc 客户端的总字节数。	Counter