Elasticsearch（ES）集群中索引状态red如何处理

喝醉酒的小白

已于 2025-04-29 10:22:02 修改

阅读量1.8k

点赞数 26

文章标签： elasticsearch 大数据搜索引擎

于 2025-01-03 15:05:52 首次发布

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/144908984

版权

ES 专栏收录该内容

42 篇文章

订阅专栏

目录标题

Elasticsearch（ES）集群中索引状态为 red 表示该索引中至少有一个主分片不可用（无法分配或丢失），这可能导致数据丢失或服务不可用。以下是排查索引状态为 red 的方法和步骤：

1. 检查集群状态

首先确认整个集群的健康状态：

GET _cluster/health

结果解析：
- status: red：集群中至少有一个主分片不可用。
- status: yellow：所有主分片可用，但某些副本分片不可用。
- status: green：所有主分片和副本分片均可用。

2. 查看索引的详细信息

通过以下命令确认哪些索引的状态为 red：

GET _cluster/health?level=indices

或者：

GET _cat/indices?v

关注字段：
- health：索引的健康状态。
- status：分片的状态。
- unassigned_shards：未分配的分片数量。

在这里插入图片描述

3. 排查未分配分片

查看未分配分片的详细信息：

GET _cat/shards

或者：

GET _cluster/allocation/explain

关注点：
- 分片 shard 的分片编号。
- 节点 node 是否分配了分片。
- unassigned_reason 字段，显示未分配的原因：
  - NODE_LEFT：分片所在的节点已离开集群。
  - DISK_SPACE：磁盘空间不足。
  - ALLOCATION_FAILED：分片分配失败。
  - INDEX_CREATED：索引创建时未能分配。

在这里插入图片描述

4. 检查日志

检查 Elasticsearch 节点的日志文件，查看错误或警告信息：

tail -f /var/log/elasticsearch/elasticsearch.log

常见问题：
- 磁盘空间不足。
- 节点断开或不稳定。
- 分片损坏。

5. 常见问题与解决方法

(1) 分片所在的节点离线

原因：节点宕机或从集群中被移除。

解决方法：
1. 确保节点正常运行并重新加入集群。
2. 检查节点之间的网络连通性。

(2) 磁盘空间不足 - 默认85%

原因：节点磁盘空间使用达到配置的阈值。

解决方法：

删除不需要的旧索引：
```
DELETE /index_name
```

增加磁盘容量或调整磁盘空间限制：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.disk.watermark.high": "90%",
    "cluster.routing.allocation.disk.watermark.flood_stage": "95%"
  }
}

GET _cluster/settings

(3) 分片分配失败

原因：分片可能已损坏或数据节点负载过高。

解决方法：

重试分片分配：

POST /_cluster/reroute?retry_failed=true

检查分片是否损坏：
```
GET /index_name/_recovery
```

在这里插入图片描述

(4) 主分片丢失

原因：某些主分片不可恢复，可能因硬件故障或分片损坏。

解决方法：

强制分配分片（可能会丢失数据）：

POST _cluster/reroute
{
  "commands": [
    {
      "allocate_stale_primary": {
        "index": "index_name",
        "shard": 0,
        "node": "node_name",
        "accept_data_loss": true
      }
    }
  ]
}