上篇讲了一些etcd常见的集群操作,这篇主要讲述一些可能遇到的常见问题,毕竟上帝(运维)视角总是要看到问题,然后进行恢复。
对于一个集群来说,常见的莫过于进程崩溃,物理机宕机,数据迁移备份,扩容缩容等操作。剩余的操作无非就是一些常见的问题处理。
etcd从严格意义上来说,也就是一个存储,不过是分布式环境下的存储,而且保持强一致性,也就是每次有个leader进行发号指令,写入数据的时候,必须leader同意follower回复ok才能写入,而且必须大部分的节点正常响应。
从而在数据备份的时候,随便备份哪个节点都是可以的。
1、 配置定时任务进行备份
配置的定时任务,每天的凌晨2点执行脚本,只保留七天的备份,然后将数据备份到固定的目录,脚本备份主要使用自带的etcdctl来进行备份,如下:
[root@docker-ce python]# cat backup.sh
#!/bin/bash
date_time=`date +%Y%m%d`</