etcd集群恢复、单节点恢复操作手册

最新推荐文章于 2024-05-16 12:46:53 发布

*老工具人了*

最新推荐文章于 2024-05-16 12:46:53 发布

阅读量1k

点赞数 10

分类专栏：数据库 Kubernetes 文章标签： etcd 数据库

本文链接：https://blog.csdn.net/weixin_43539320/article/details/138808203

版权

Kubernetes 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

数据库

8 篇文章 0 订阅

订阅专栏

在这里插入图片描述

一、集群备份

备份方式：Jenkins触发每小时的定时任务，通过调取ansible的playbook进行etcd集群的数据备份和上传，默认只备份集群中的非leader成员，避免leader成员压力过大。将备份数据上传到对应的公有云对象存储，分别上传到两个不同的对象存储的目录下，以适配不同目录下的不同生命周期规则，a目录每小时上传，生命周期为保留近3天的每小时的数据备份；b目录为只有当时间为0点、12点才进行上传，生命周期为保留近15天的数据备份，每天有2次备份。

备份命令：

/usr/local/bin/etcdctl --endpoints {{ ansible_default_ipv4.address }}:2379 snapshot save {{ local_tar_dir }}{{ dump_name }}
#ansible_default_ipv4.address：本机的IP地址
#local_tar_dir：本地的保存路径
#dump_name：备份名字

二、整个集群还原

前言

生产环境中，经常遇到etcd集群出现单节点故障或者集群故障。针对这两种情况，进行故障修复。以下为介绍etcd的集群全部节点故障时，故障应急的恢复手册

1、从公有云下载备份文件

#obs华为云
sudo /usr/local/bin/obsutil ls obs://jws2-live-cn-backup-01/db-etcd/2024-03-28/05/ -s | grep "_master"
sudo /usr/local/bin/obsutil cp {{ first_tarball }} /tmp/snapshot.db

#gcp谷歌云
/bin/gsutil ls gs://{{cloud_backup_bucket}}/db-etcd/{{now_date}}/{{now_hour}}/
/bin/gsutil  cp  {{ backup_file.stdout }}   /tmp/snapshot.db

2、备份当前etcd集群

执行jenkins任务，或者手动执行命令

/usr/local/bin/etcdctl --endpoints {{ ansible_default_ipv4.address }}:2379 snapshot save {{ local_tar_dir }}{{ dump_name }}
#{{ local_tar_dir }}{{ dump_name }}：备份保存的目标目录和文件名

3、停止etcd集群

sudo systemctl stop etcd

4、移除原有目录

#移除原有目录
sudo mv /opt/etcd/etcd-data /opt/etcd/etcd-data_bak
#创建新目录
sudo mkdir /opt/etcd/etcd-data

5、还原etcd数据库（三节点）

建议使用etcdutl命令

先将etcdutl命令移动

sudo cp /opt/etcd/etcd-data/etcd-v3.5.0-linux-amd64/etcdutl /usr/local/bin/etcdutl

在每台机器上都需要进行还原，从快照恢复时，您可以直接将新成员信息提供到数据存储中

$ etcdutl snapshot restore snapshot.db \
  --name m1 \
  --initial-cluster m1=http://host1:2380,m2=http://host2:2380,m3=http://host3:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://host1:2380 \
  --data-dir=/opt/etcd/etcd-data
  
$ etcdutl snapshot restore snapshot.db \
  --name m2 \
  --initial-cluster m1=http://host1:2380,m2=http://host2:2380,m3=http://host3:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://host2:2380 \
  --data-dir=/opt/etcd/etcd-data
  
$ etcdutl snapshot restore snapshot.db \
  --name m3 \
  --initial-cluster m1=http://host1:2380,m2=http://host2:2380,m3=http://host3:2380 \
  --initial-cluster-token etcd-cluster-1 \
  --initial-advertise-peer-urls http://host3:2380 \
  --data-dir=/opt/etcd/etcd-data

启动etcd集群

sudo  systemctl start etcd

6、检查新集群

检查每个etcd的数据大小和成员信息

sudo etcdctl --endpoints=http://192.168.1.5:2380,http://192.168.0.142:2380,http://192.168.1.175:2380,http://192.168.1.99:2380,http://192.168.0.70:2380 endpoint status -w table

sudo etcdctl member list

检查日志是否有异常

7、集群还原注意事项

etcd集群还原有一些坑，应当慎重执行还原操作！

当使用备份进行整个集群的还原时，集群间的数据不会自动同步，必须每台都要进行还原，切记！一定要使用同一份备份数据进行所有节点的还原。

第一次进行测试时，共有三节点，只将节点1进行了还原，2、3节点没有进行还原，2、3节点也没有数据，但是集群依然可以启动，并且2、3节点上也没有数据，集群的运行状态正常，还可以正常对外提供服务，很是诡异。

去集群get某个key，只会有三分之一的概率会获取到。也是说raft协议在这时并不会生效，这时候在写入key，集群间同步正常，可以正常获取到这个key。

因为我们在还原集群的时候指定了新的元数据，还原后的集群可以认为是一个新的集群，通过上述的情况可知，即便是集群的三个节点恢复了不同的数据，集群也不会进行数据校验，当集群运行后，raft协议才会生效，raft只会同步“新”集群后写入的数据。

三、集群单节点故障处理

前言

生产环境中，经常遇到etcd集群出现单节点故障或者集群故障。针对这两种情况，进行故障修复。本文介绍etcd的单节点故障时，故障应急的恢复手册

1、恢复流程

由于etcd的raft协议，整个集群能够容忍的故障节点数为（n-1）/ 2，因此在单个节点故障时，单个集群的仍然可用，不会影响业务的读写。

整体的恢复流程如下

集群member rmove异常节点–>异常节点删除脏数据–>集群member add节点–>集群完成数据同步并恢复

2、详细恢复步骤

（1）查看集群状态

通过member remove命令删除异常节点，此时整个集群只有2个节点，不会触发master重新选主，集群正常运行。

export ETCDCTL_API=3
export ETCD_ENDPOINTS=192.168.92.128:2379,192.168.92.129:2379,192.168.92.130:2379
etcdctl --endpoints=$ETCD_ENDPOINTS --write-out=table member list
etcdctl --endpoints=$ETCD_ENDPOINTS --write-out=table endpoint status

（2）删除异常节点

MEMBER_ID=278c654c9a6dfd3b
etcdctl --endpoints=${HOST_1}:2379,${HOST_2}:2379,${HOST_3}:2379 \
	member remove ${MEMBER_ID}

（2）删除异常节点数据

#移除原有目录
sudo mv /opt/etcd/etcd-data /opt/etcd/etcd-data_bak
#创建新目录
sudo mkdir /opt/etcd/etcd-data

（3）集群中重新添加节点

通过如下命令，将异常节点添加到集群中，等对应的节点启动后，就会自动完成集群数据同步和选主

export ETCDCTL_API=3
NAME_1=etcd-node-1
NAME_2=etcd-node-2
NAME_3=etcd-node-3
HOST_1=10.240.0.13
HOST_2=10.240.0.14
HOST_3=10.240.0.16 # 故障成员
etcdctl --endpoints=${HOST_1}:2379,${HOST_2}:2379 \
	member add ${NAME_3} \
	--peer-urls=http://${HOST_3}:2380

（4）启动节点

注意：

由于etcd的数据已经被删除，因此当前节点重启时，从其他的节点获取数据，因此需要调整参数–initial-cluster-state，从new改成existing

TOKEN=my-etcd-token-1
CLUSTER_STATE=existing
NAME_1=etcd-node-1
NAME_2=etcd-node-2
NAME_3=etcd-node-3
HOST_1=10.240.0.13
HOST_2=10.240.0.14
HOST_3=10.240.0.16 # 故障成员
CLUSTER=${NAME_1}=http://${HOST_1}:2380,${NAME_2}=http://${HOST_2}:2380,${NAME_3}=http://${HOST_3}:2380

THIS_NAME=${NAME_3}
THIS_IP=${HOST_3}
etcd --data-dir=data.etcd --name ${THIS_NAME} \
	--initial-advertise-peer-urls http://${THIS_IP}:2380 \
	--listen-peer-urls http://${THIS_IP}:2380 \
	--advertise-client-urls http://${THIS_IP}:2379 \
	--listen-client-urls http://${THIS_IP}:2379 \
	--initial-cluster ${CLUSTER} \
	--initial-cluster-state existing \
	--initial-cluster-token ${TOKEN}

（5）等待集群数据完成同步并恢复

export ETCDCTL_API=3
export ETCD_ENDPOINTS=10.240.0.13:2379,10.240.0.14:2379,10.240.0.16:2379
etcdctl --endpoints=$ETCD_ENDPOINTS --write-out=table member list
etcdctl --endpoints=$ETCD_ENDPOINTS --write-out=table endpoint status

*老工具人了*

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
etcd集群恢复、单节点恢复操作手册

生产环境中，经常遇到etcd集群出现单节点故障或者集群故障。针对这两种情况，进行故障修复。以下为介绍etcd的集群全部节点故障时，故障应急的恢复手册生产环境中，经常遇到etcd集群出现单节点故障或者集群故障。针对这两种情况，进行故障修复。本文介绍etcd的单节点故障时，故障应急的恢复手册。
复制链接

扫一扫