etcd
文章平均质量分 80
SRE运维进阶之路
这个作者很懒,什么都没留下…
展开
-
Etcd 故障排查
auto-compaction-retention=1000 保留近1000个revision,每5分钟自动压缩 ”latest revision” - 1000。,需要升级 ETCD 集群的空间(默认为2G的磁盘使用空间),或者压缩老数据,升级空间后,需要使用 etcd命令,取消此报警信息,否则集群依旧无法使用。etcd默认的空间配额限制为2G,超出空间配额限制就会影响服务,所以需要定期清理。quota-backend-bytes 设置etcd最大容量为8G。查看ETCD集群报警情况。原创 2023-06-23 14:10:51 · 368 阅读 · 0 评论 -
#Etcd 监控
完成集群部署、了解成员管理、构建好监控及告警体系并添加好定时备份策略后,这时终于可以放心给业务使用了。Grafana 大盘: https://github.com/clay-wangzhi/grafana-dashboard/blob/master/etcd/etcd-dash.json。参考ServiceMonitor和EtcdBackup机制,同样可以通过CRD的方式描述此巡检任务,然后通过相应的Operator实现此巡检任务。新增 etcd secret。原创 2023-06-21 20:48:18 · 101 阅读 · 0 评论 -
评估 Etcd 性能及可靠性
来评估存储 I/O 性能, 该指标记录了 WAL 文件系统调用 fsync 的延迟分布,当 99% 样本的同步时间小于 10 毫秒就可以认为存储性能能够满足 etcd 的性能要求。,发现3节点集群,在停止一个 etcd 节点的 etcd 进程后,其他 etcd 节点能够顺利接管其工作,确保 Kubernetes 集群的正常运行。SLO(Service Level Objective):服务等级目标,指的就是我们设定的稳定性目标,比如“几个 9”这样的目标。最后 source 生效。给定较高的磁盘优先级。原创 2023-06-20 20:44:39 · 392 阅读 · 0 评论 -
Etcd 概述
Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。名字由来,它源于两个方面,unix的“/etc”文件夹和分布式系统(“D”istribute system)的D,组合在一起表示etcd是用于存储分布式配置的信息存储服务。原创 2023-06-18 23:18:07 · 376 阅读 · 0 评论 -
Etcd 高可用故障演练
通过本次演练,我们验证了 Kubernetes 的 etcd 子系统的高可用性,并了解了在一个节点发生故障的情况下,其他节点是如何接管其工作的。在实际生产环境中,我们建议对 Kubernetes 集群的 etcd 子系统进行高可用性测试,以确保集群能够稳定、可靠地运行。此外,我们还应定期检查 Kubernetes 集群的各个组件状态,确保其正常运行,避免出现故障导致的服务中断。原创 2023-06-19 22:34:15 · 141 阅读 · 0 评论