如何防止 Elasticsearch 中的数据丢失?

前言

在当下,数据可靠性(data reliability)对于每个企业来说都是至关重要的事情。只有当具备可靠的数据,我们才可以依赖数据创造出高效好用的软件。在数据实时化、智能化、全球化的应用场景下,保证数据的可靠性则更为重要。今天,我想跟大家讨论一下,我对于如何在 Elasticsearch 中避免数据丢失这个问题的一些看法。

阅读本文后,你会明白:

  • 数据什么时候会丢失?
  • 提高副本分片数
  • 快照与恢复
  • 使用 RAID 磁盘阵列
  • 数据队列(message queue)整合
  • 主副分片存在不同节点
  • 避免使用单一可用区

事不宜迟,让我们马上开始吧!

数据什么时候会丢失?

Elasticsearch 集群的健康状态分为三个等级(颜色):绿色、黄色、红色。

在分片层面下:

  • 红色的状态意味着此分片无法被分配到集群内
  • 黄色的状态意味着主分片已经被分配,但是一个或多个副本分片并没有被分配
  • 绿色的状态意味着所有的分片都已经被成功地分配

在索引的层面下,它的健康状态由最差的分片状态决定。而在集群的层面下,它的健康状态由最差的索引状态决定。

所以当集群在红色状态下,这意味着某些分片数据没有能够被正常初始化或者已有数据存在损坏或者丢失的情况。这篇文章的重点就是避免黄色或者红色的状态出现,让集群尽量处于绿色状态。

提高副本分片数

提高副本分片数是一个简单的提高数据可靠性的办法。当一个分片被放在集群的多台机器时,如果单台机器出现硬盘损坏,其他机器受到影响的可能性不大。我们依然有 N - 1 个可用的分片。副本分片数越高,那么丢失数据的可能性也就越低。通过 Update index settings API (7.x) 可以调整副本分片数。比如,如果需要一个主分片和两个副本分片的话,可以使用发送以下的 HTTP 请求到集群:

PUT /my-index-000001/_settings

{
  "index" : {
    "number_of_replicas" : 2
  }
}

提高分片数这个方法虽然好用,但是它也有明显的不足。那就是。。。贵!比如说我们总共有 6TB 的集群储存空间,一主一副的方案可以储存 6TB / 2 = 3TB 的数据,而一主二副的方案则只能储存 6TB / 3 = 2TB 的数据,利用率降低 33% 成本提高 50%。

快照与恢复

使用无论哪个存储数据的软件,定期备份你的数据都是很重要的。上文提到的 Elasticsearch 副本提供了高可靠性;它们让你可以容忍零星的节点丢失而不会中断服务。但是,副本并不提供对灾难性故障的保护。对这种情况,你需

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值