非安全重启面临的问题
在生产环境中,如果直接kill掉节点,可能导致数据丢失、es服务不可用等问题。
另外,集群会认为该节点挂掉了,集群重新分配数据进行数据转移(shard rebalance),会导致节点直接大量传输数据
其次、节点重启之后,恢复数据,同样产生大量的磁盘、网络流量,耗费机器和网络资源的。
安全重启步骤
- 暂停数据写入程序
- 关闭集群shard allocation
- 手动执行POST /_flush/synced
- 重启节点
- 重新开启集群shard allocation
- 等待recovery完成,集群health status变成green
- 重新开启数据写入程序
速度调优
可临时增大 max_bytes_per_sec;随后在进行更改
可以多节点同时操作
可以将历史索引的副本数暂时调整为0;集群恢复后在进行调整
使用 _forcemerge
GET _cluster/settings?include_defaults=true
GET _cat/recovery
# 1. 关闭集群自动shard allocation
PUT _cluster/settings
{
"persistent": {
"cluster.routing.allocation.enable": "none"
}
}
# 手动触发flush数据
POST /flush/synced
# 重启节点
# 增加recovery 速率
PUT _cluster/settings
{
"transient":
{
"indices.recovery.max_bytes_per_sec": "2000mb"
}
}
# 恢复recovery 速率
PUT _cluster/settings
{
"transient":
{
"indices.recovery.max_bytes_per_sec": "null"
}
}
# 开启集群自动shard allocation
PUT _cluster/settings
{
"persistent": {
"cluster.routing.allocation.enable": "all"
}
}
GET _cat/recovery?v
{"active_only":true}