ElasticSearch 1.6数据同步策略的一个优化

最新推荐文章于 2024-05-20 12:55:57 发布

火炬手1128

最新推荐文章于 2024-05-20 12:55:57 发布

阅读量2.6k

点赞数

分类专栏： elasticsearch

elasticsearch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

问题背景和描述

问题背景

ElasticSearch

ElasticSearch是一个基于Apache Lucene的实时分布式搜索和分析引擎，用于全文搜索、结构化搜索、分析以及将这三者混合使用。可以这样描述它：

分布式的实时文件存储，每个字段都被索引并可被搜索
分布式的实时分析搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据
ElasticSearch 1.6.0 release 点击下载

Apache Lucene
上面说到ES基于Apache Lucene，Lucene是一个全文检索引擎架构，提供了完整的查询引擎和索引引擎。它是一个高性能、可伸缩的信息搜索(IR)库，Lucene是用java实现的、成熟的开源项目。

相关概念

Elasticsearch有很多核心概念，下面对几个相关的概念进行简单说明：
cluster：集群，是由多个节点组织在一起，共同持有数据并一起提供索引和搜索功能。
node：节点，是集群中的一个服务器，集群的一部分，存储数据并参与集群的索引和搜索功能。
index：索引，ES存储数据的地方，类似于关系数据库的database。
shard：分片，索引被分成许多shards，每个分片本身也是一个功能完善并且独立的“索引”，所有这些分片分布在不同节点上，也就是不同机器上面。
replicas： ES允许创建分片的拷贝，称为副本。每个主分片还有自己的几个副本分片。作为一个故障转移或者优化机制：
- - 分片或节点失败的情况下，提供了高可用性。
    - 扩展搜索量和吞吐量，使请求可以在所有的复制上并行运行。
各个概念之间的关系图
ElasticSearch中集群节点分片之间的关系
如图1所示，cluster和node都是物理层面上的概念，一个集群包含很多节点。而shard分为两种，一种是主分片primary，一种是副本replica。主分片数量决定了index被分成多少部分，而replica是主分片的备份，数据和主分片完全一致。所有这些shard分别存储在不同的node上，尽量使得副本和主分片不在同一个节点上。

与Lucene segment之间的关系
从底层结构来看，每个Shard实际就是一个Luene的Index，index又是由Segment组成，segment里面可以简单理解为一个字典，记录多个term在原文的位置。如图2所示：

问题描述

下面我们描述一下出现的问题。一个cluster中，有节点node加入或退出时ES都会根据机器的负载对分片进行重新分配到节点上。分配的目标是副本和主分片一致，如果节点已有副本，但不一致，则通过网络复制。对于一致性的判断，老版本偷懒直接比较的是Shard整体的MD5码是否相同，这往往造成很多“误判”。这样一次数据恢复的过程非常的缓慢，实际应用中会给公司带来很大的麻烦。

新版本1.6添加了一项新的ID，对每个segment中的内容进行标识，有效的解决了这一问题。具体实现方法下面会对它们进行说明。

问题出现的原因

实际上一个Lucene Index有多少个Segment是不固定的，和写入速度相关。一开始因为高写入速度会导致Segment过多，这种碎片化长久下去会导致查询速度降低，所以Lucene有后台进程异步把多个segment合并成一个。正是因为Lucene段合并机制导致不同shard中的segment即使内容相同，它们之间的MD5也不一样。

解决方法

参考信息：ElasticSearch 1.6.0 released

新的同步机制

ElasticSearch 1.6.0中添加了一个新的同步刷新机制synced-flush。该功能是把一个sync_id写进主分片和复制分片用来标记它们，ID相同则segment内容必然相同。程序会直接忽略比较segment内容，而只是比较它们原先设定的标记id，这本身就在很大程度上节省了时间，同样也避免了由于“误判”带来的无用复制。可以说这一改进极大的增强了Recovery的速度。

上面说到的sync_id标记了主分片和副本上具有相同内容的segment，这一过程是依赖flush来完成的。一个synced flush过程会发生在任何空闲索引上，从一开始就确保对相同内容的segment进行标记。这尤其对于日志记录来说又非常地有用，之前的index会在索引停止5分钟之后自动同步。

如果我们需要重启一个节点或集群而并不想等待同步自动发生，可以这样做：
- 停止索引的过程，同时等待正在进行的请求停止
- 停止分配shard(分片)
- 主动发出一个syncd-flush(同步冲洗)请求
- 重启节点
- 重新分配shard
- 等待集群状态，直到它们都是绿色
- 恢复索引
Code Analysis

在这里，对代码的逻辑进行简单的叙述

删除seal机制

首先想要说一下seal密封，这是之前旧版本ES Recovery过程中用到的密封机制，它提供同步刷新的内部逻辑和手动停止刷新的API。现在为了避免和新版本用到的刷新机制造成冲突，删除所有之前seal相关的API。

重写flush机制

flush机制首先为所有副本做刷新处理，然后为它们写下sync_id。程序为了确保同步刷新之后每个包含相同内容的shard副本拥有相同sync id，按照下面三步来完成：
- 1，先flush所有主分片还有对应的副本，同时把它们的commit id都收集到一起
- 2，确保主分片上没有正在执行的索引操作
- 3，为每个副本shard做一次额外的flush，并为它们写下sync id
处理第三步需要满足下面限定条件：
- a，目标副本自从上一次flush之后没有任何未提交的更改
- b，而且a中说到的上一次flush也必须是上面步骤1的flush，也就是用于收集commit id的那次
根据上面三步思路，在"src/main/java/org/elasticsearch/indices/flush/"路径下新建SyncedFlushService.class类，定义 attemptSyncedFlush(ShardId,ActionListener<ShardsSyncedFlushResult>) 方法，获取shard列表并且获取commit id。

发送同步请求给每个分片： sendSyncRequests(syncId, activeShards, state, commitIds, shardId, totalShards, actionListener)

完成之后调用 sendPreSyncRequests(activeShards, state, shardId, commitIdsListener) 方法发送第二次flush请求，为每个副本进行二次刷新操作。

解决方法的分析比较

就上面说到的旧版本和新版本的数据恢复方法，笔者对它们进行如下比较：
- 时间方面：旧办法由于判断错误，造成大量数据需要复制，非常缓慢；新办法只是比较id，不会造成大量无用复制，恢复时间很快
- 准确度方面：旧办法能有效地找出所有和主分片内容不同的segment，准确度应该很高的，但是由于底层设计原因，错误的把很多不需要复制的segment拿来复制，反而降低了准确度；新办法在每次flush之后都会有sync_id生成，从一开始就比较了segment，准确度也很好。
ES1.7版最新改进

上面说到的都是1.7以前版本对recovery过程的处理，而在刚刚发布的最新版本ES1.7当中，又对indices的同步复制问题做了进一步优化。

参考信息：Elasticsearch 1.7.0 and 1.6.1 released
添加优先权属性
假设下面一种情况出现：服务器断电，ES整个集群全部需要重启和数据恢复。此时，如果我们急需某个index上面的数据，但是又有如此多的old data需要恢复，而恢复的过程是随机的，因此我们不得不等待需要的那块数据恢复完，这会耽误我们的时间。

新的改进版本，为每个index添加一项priority属性，代表该索引在需要数据恢复时候的优先权。priority的值是一个非负整数，数值越大优先权越高，优先权越高也就越先被恢复。index完全按照优先权大小按顺序recovery，优先权可以由以下几项决定：
- 我们可以自己设置index的priority属性
- 默认按照index的创建时间决定priority值的大小
- 默认按照index的名称决定priority的大小
如果不做任何更改的话，最新创建的index会被优先recovery，当然我们也可以自己设置priority的值来增加老数据的优先级。
更改方法
该设置可以在一个运行中的index上完成，甚至当indices正在recovery的时候也能实时更新。
```
```
PUT important_index/_settings
{
    "index.priority": 5
}
```
```
后记

ElasticSearch节点重启带来的数据复制问题，一直是公司迫切需要解决的难题之一。新办法提出一个synced-flush处理过程，大大的节省了Recovery时间。

另外，问题的关键就在底层的Lucene merge导致segment不同，实际上Lucene 5.0.0中已经对段进行了改进，给每一个segment添加了一个commit_id。笔者在这里思考的是能否通过这个改进，通过直接比较主分片和副本中每个segment的commit id来解决上面所述的问题。关于Lucene的改进文档，详情请点击：Lucene 5.0 change log-5895

在这里不得不吐槽，ES有些地方做的还是有不少问题，公司目前正使用并且研究ES，会对遇到的很多问题进行汇总和研究改进，以后会不断有更多相关的技术分析，欢迎大家一起讨论。

火炬手1128

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch 1.6数据同步策略的一个优化

问题背景和描述问题背景ElasticSearchElasticSearch是一个基于Apache Lucene的实时分布式搜索和分析引擎，用于全文搜索、结构化搜索、分析以及将这三者混合使用。可以这样描述它：分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展到上百台服务器，处理PB级结构化或非结构化数据ElasticSearch 1.
复制链接

扫一扫