欢迎关注我的头条号:Wooola,专注于Java、Golang、微服务架构,致力于每天分享快乐编码和开源技术。
![b9aaa7e1672b4c8c95874130fbd12525.png](https://i-blog.csdnimg.cn/blog_migrate/a75be875c9e7374c58ea8a9fce9eb435.jpeg)
来源:elasticsearch.cn | midnight
1. 背景
生产es集群共12台服务器,5个索引数据总量为2亿,每个索引都有设置replicas=1-3不等。正常情况下12台服务器down掉一两台甚至是依次❶挂掉过半服务器都不会有问题。
服务器配置为8-12核 48-96G内存,由于利用率不高,因此决定下线6台服务器,在实际操作过程中由于内部沟通问题导致集群数据丢失、索引损坏等一系列问题。
![626975836192ff806d9c7096de185785.png](https://i-blog.csdnimg.cn/blog_migrate/8827f0313c9ce26d92231732ac80be23.jpeg)
本文对本次灾难如何发生、怎样恢复做下回顾,以期警示大家在对生产环境做操作一定要细致谨慎、做好备份、避免此类问题发生。以及给万一出现此类问题的朋友们提供下应对处理此类问题的一种思路。
如有更好的解决方案,欢迎提出,共同探讨。
2. 灾难发生时间轴
2017-6-09 周五下午——运营将