灾难描述:
通过错误日志分析:超长关键词模糊查询触发lucene内部错误,导致整个集群全部宕机
灾难恢复面临问题
-
- 重启整个集群
-
- 打开被close的索引
POST */_open
- 打开被close的索引
-
- 查看集群健康状态
GET _cat/health 集群状态RED
- 查看集群健康状态
-
- 查看索引分片状态
GET _cat/shards 商品索引2号shard主副分片全部UNASSIGNED,提供的服务的数据只有60%
- 查看索引分片状态
灾难恢复方案
-
- 重启ElasticSearch集群
-
- 恢复UNASSIGNED分片
elasticsearch集群索引分片丢失的处理
- 恢复UNASSIGNED分片
-
- 重建商品索引,重导全量数据(主副分片全部UNASSIGNED,分片恢复尝试无效)
灾难恢复
重建商品索引,重导全量数据
灾难总结及预防方案
-
- 换掉模糊查询或者限制其关键字长度
-
- 索引setting主副分片设置方案,主分片数量1 副分片数量2以上
-
- 建立ElasticSearch快照(每隔2小时 视需求而定)
Elasticsearch模块功能之-快照和恢复(snapshot and restore)
- 建立ElasticSearch快照(每隔2小时 视需求而定)