etcd 集群运维实践

最新推荐文章于 2023-06-01 22:50:33 发布

Docker_

最新推荐文章于 2023-06-01 22:50:33 发布

阅读量758

点赞数

本文链接：https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/86066276

版权

本文介绍了etcd集群运维中的关键点，包括节点时间同步的重要性，如何处理磁盘空间不足的问题，以及在更新证书后确保所有请求携带证书以避免通信错误。同时，提醒在进行etcd操作时注意启动参数，以免导致不必要的复杂重置步骤。

摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

etcd 是 Kubernetes 集群的数据核心，最严重的情况是，当 etcd 出问题彻底无法恢复的时候，解决问题的办法可能只有重新搭建一个环境。因此围绕 etcd 相关的运维知识就比较重要，etcd 可以容器化部署，也可以在宿主机自行搭建，以下内容是通用的。
集群的备份和恢复

640?wx_fmt=png

添加备份

#!/bin/bash
IP=123.123.123.123
BACKUP_DIR=/alauda/etcd_bak/
mkdir -p $BACKUP_DIR
export ETCDCTL_API=3
etcdctl --endpoints=http://$IP:2379 snapshot save $BACKUP/snap-$(date +%Y%m%d%H%M).db
# 备份一个节点的数据就可以恢复，实践中，为了防止定时任务配置的节点异常没有生成备份，建议多加几个

恢复集群

#!/bin/bash
# 使用 etcdctl snapshot restore 生成各个节点的数据
# 比较关键的变量是
# --data-dir 需要是实际 etcd 运行时的数据目录
# --name --initial-advertise-peer-urls 需要用各个节点的配置
# --initial-cluster initial-cluster-token 需要和原集群一致
ETCD_1=10.1.0.5
ETCD_2=10.1.0.6
ETCD_3=10.1.0.7
for i in ETCD_1 ETCD_2 ETCD_3
do
export ETCDCTL_API=3
etcdctl snapshot restore snapshot.db \
--data-dir=/var/lib/etcd \
--name $i \
--initial-cluster ${ ETCD_1}=http://${ETCD_1}:2380,${ETCD_2}=http://${ETCD_2}:2380,${ETCD_3}=http://${ETCD_3}:2380 \
--initial-cluster-token k8s_etcd_token \
--initial-advertise-peer-urls http://$i:2380 && \
mv /var/lib/etcd/ etcd_$i
done
# 把 etcd_10.1.0.5 复制到 10.1.0.5节点，覆盖/var/lib/etcd（同--data-dir路径）
# 其他节点依次类推

用 etcd 自动创建的 SnapDb 恢复

#!/bin/bash
export ETCDCTL_API=3
etcdctl snapshot restore snapshot.db \
--skip-hash-check \
--data-dir=/var/lib/etcd \
--name 10.1.0.5 \
--initial-cluster 10.1.0.5=http://10.1.0.5:2380,10.1.0.6=http://10.1.0.6:2380,10.1.0.7=http://10.1.0.7:2380 \
--initial-cluster-token k8s_etcd_token \
--initial-advertise-peer-urls http://10.1.0.5:2380
# 也是所有节点都需要生成自己的数据目录，参考上一条
# 和上一条命令唯一的差别是多了 --skip-hash-check （跳过完整性校验）
# 这种方式不能确保 100% 可恢复，建议还是自己加备份
# 通常恢复后需要做一下数据压缩和碎片整理，可参考相应章节

踩过的坑
[ 3.0.14 版 etcd restore 功能不可用 ] https://github.com/etcd-io/etcd/issues/7533
使用更新的 etcd 即可。
总结：恢复就是要拿 DB 去把 etcd 的数据生成一份，用同一个节点的，可以保证除了 restore 时候指定的参数外，所有数据都一样。这就是用一份 DB，操作三次（或者5次）的原因。
集群的扩容——从 1 到 3

640?wx_fmt=png

执行添加

#!/bin/bash
export ETCDCTL_API=2
etcdctl --endpoints=http://10.1.0.6:2379 member add 10.1.0.6 http://10.1.0.6:2380
etcdctl --endpoints=http://10.1.0.7:2379 member add 10.1.0.7 http://10.1.0.7:2380
# ETCD_NAME="etcd_10.1.0.6"
# ETCD_INITIAL_CLUSTER="10.1.0.6=http://10.1.0.6:2380,10.1.0.5=http://10.1.0.5:2380"
# ETCD_INITIAL_CLUSTER_STATE="existing"