elasticsearch源码分析之search查询(十一)

最新推荐文章于 2025-05-05 15:06:11 发布

thomas0yang

最新推荐文章于 2025-05-05 15:06:11 发布

阅读量4.3k

点赞数 3

分类专栏： elasticsearch 文章标签： elasticsearch 源码

本文链接：https://blog.csdn.net/thomas0yang/article/details/78572596

版权

本文深入探讨Elasticsearch的结构化搜索，重点分析QUERY_THEN_FETCH查询流程。从master和node服务端的角色，到QUERY和FETCH阶段的操作，详细解释了查询请求的分发、数据合并及节点间的交互。最后总结了ES分布式查询的整体过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分布式查询

elasticsearch的搜索主要分为结构化搜索和全文检索。
结构化搜索（Structured search）是指有关探询那些具有内在结构数据的过程。比如日期、时间和数字都是结构化的：它们有精确的格式，我们可以对这些格式进行逻辑操作。比较常见的操作包括比较数字或时间的范围，或判定两个值的大小。说白了就是类SQL检索。
全文搜索（full-text search）是怎样在全文字段中搜索到最相关的文档。
因为我们主要针对解决OLAP问题，所以此处只介绍结构化搜索。
elasticsearch整个查询是scatter/gather思想，也是多数分布式查询的套路，即：
1. master服务端（配置为node.master: true）接收客户端请求，查找对应的index、shard，分发数据请求到对应node服务端（node.data: true）
2. node端负责数据查询，返回结果到master端
3. master端把查询结果进行数据合并
上面流程是一个逻辑流程，es的具体查询过程中会分为不同的查询类型：QUERY_THEN_FETCH、QUERY_AND_FETCH（Deprecated），有不同的查询动作。
由于QUERY_AND_FETCH在5.X已经废除（使用QUERY_THEN_FETCH替代），所以这里只介绍QUERY_THEN_FETCH查询流程。

master服务端

1、接收查询请求，进行readblock检查。根据request的index构造相应的ShardsIterator，shardIterators由localShardsIterator和remoteShardIterators合并而成，用户遍历所有的shard。生成shardits会有一些查询策略，控制每个shard的查询优先次序和条件控制。

preferenceType = Preference.parse(preference);
switch (preferenceType) {
   case PREFER_NODES:
       final Set<String> nodesIds =
               Arrays.stream(
                       preference.substring(Preference.PREFER_NODES.type().length() + 1).split(",")
               ).collect(Collectors.toSet());
       return indexShard.preferNodeActiveInitializingShardsIt(nodesIds);
   case LOCAL:
       return indexShard.preferNodeActiveInitializingShardsIt(Collections.singleton(localNodeId));
   case PRIMARY:
       return indexShard.primaryActiveInitializingShardIt();
   case REPLICA:
       return indexShard.replicaActiveInitializingShardIt();
   case PRIMARY_FIRST:
       return indexShard.primaryFirstActiveInitializingShardsIt();
   case REPLICA_FIRST:
       return indexShard.replicaFirstActiveInitializingShardsIt();
   case ONLY_LOCAL:
       return indexShard.onlyNodeActiveInitializingShardsIt(localNodeId);
   case ONLY_NODES:
       String nodeAttributes = preference.substring(Preference.ONLY_NODES.type().length() + 1);
       return indexShard.onlyNodeSelectorActiveInitializingShardsIt(nodeAttributes.split(","), nodes);
   default:
       throw new IllegalArgumentException("unknown preference [" + preferenceType + "]");
}

2、根据条件设置查询类型，根据查询类型构造出AbstractSearchAsyncAction（继承了InitialSearchPhase），异步查询action。查询类型QUERY_THEN_FETCH构造出SearchQueryThenFetchAsyncAction。start方法启动异步查询。

QUERY阶段

3、query shard阶段。如果需要查询的shard数为空，则直接返回。遍历shardits，每个shard执行query请求操作

for (final SearchShardIterator shardIt : shardsIts) {
    shardIndex++;
    final ShardRouting shard = shardIt.nextOrNull();
    if (shard != null) {
        performPhaseOnShard(shardIndex, shardIt, shard);
    } else {
        // really, no shards active in this group
        onShardFailure(shardIndex, null, null, shardIt, new NoShardAvailableActionException(shardIt.shardId()));
    }
}

4、监听所有shard query请求，成功返回回调onShardResult方法，失败返回回调onShardFailure方法。onShardResult维护了shard计数器的工作，onShardFailure维护了计数器和shard失败处理工作（失败后请求该shard的下一个副本，重新发起请求）。上面所有shard均已返回（计数器判断），则执行onPhaseDone，即executeNextPhase，进入fetch阶段。

try {
    executePhaseOnShard(shardIt, shard, new SearchActionListener<FirstResult>(new SearchShardTarget(shard.currentNodeId(),
        shardIt.shardId(), shardIt.getClusterAlias(), shardIt.getOriginalIndices()), shardIndex) {
        @Override
        public void innerOnResponse(FirstResult result) {
                onShardResult(result, shardIt);
        }

        @Override

最低0.47元/天解锁文章