shardingsphere源码分析(六)-- 归并引擎

15 篇文章 0 订阅
9 篇文章 1 订阅

shardingsphere源码分析(六)-- 归并引擎

shardingsphere源码分析(六)-- 归并引擎

官方介绍

链接如下:
https://shardingsphere.apache.org/document/current/cn/features/sharding/principle/merge/

将从各个数据节点获取的多数据结果集,组合成为一个结果集并正确的返回至请求客户端,称为结果归并。

ShardingSphere 支持的结果归并从功能上分为遍历、排序、分组、分页和聚合 5 种类型,它们是组合而非互斥的关系。 从结构划分,可分为流式归并、内存归并和装饰者归并。流式归并和内存归并是互斥的,装饰者归并可以在流式归并和内存归并之上做进一步的处理。

  • 遍历归并
    它是最为简单的归并方式。 只需将多个数据结果集合并为一个单向链表即可。在遍历完成链表中当前数据结果集之后,将链表元素后移一位,继续遍历下一个数据结果集即可。

  • 排序归并
    由于在 SQL 中存在 ORDER BY 语句,因此每个数据结果集自身是有序的,因此只需要将数据结果集当前游标指向的数据值进行排序即可。 这相当于对多个有序的数组进行排序,归并排序是最适合此场景的排序算法。

  • 分组归并
    分组归并的情况最为复杂,它分为流式分组归并和内存分组归并。 流式分组归并要求 SQL 的排序项与分组项的字段以及排序类型(ASC 或 DESC)必须保持一致,否则只能通过内存归并才能保证其数据的正确性。

  • 聚合归并
    无论是流式分组归并还是内存分组归并,对聚合函数的处理都是一致的。 除了分组的 SQL 之外,不进行分组的 SQL 也可以使用聚合函数。 因此,聚合归并是在之前介绍的归并类的之上追加的归并能力,即装饰者模式。聚合函数可以归类为比较、累加和求平均值这 3 种类型。

  • 分页归并
    上文所述的所有归并类型都可能进行分页。 分页也是追加在其他归并类型之上的装饰器,ShardingSphere 通过装饰者模式来增加对数据结果集进行分页的能力。 分页归并负责将无需获取的数据过滤掉。

归并引擎的整体结构划分如下图。
在这里插入图片描述

debug

运行examples/shardingsphere-jdbc-example/sharding-example/sharding-raw-jdbc-example/src/main/java/org/apache/shardingsphere/example/sharding/raw/jdbc/YamlRangeConfigurationExampleMain.java

查询sql,才会走归并引擎

// ShardingSpherePreparedStatement.java
public ResultSet executeQuery() throws SQLException {
	...
  	List<QueryResult> queryResults = this.executeQuery0();
    // 归并
    MergedResult mergedResult = this.mergeQuery(queryResults);
    ...
 }

先通过SPI初始化MergeEngine

// MergeEngine.java
public MergeEngine(DatabaseType databaseType, ShardingSphereSchema schema, ConfigurationProperties props, Collection<ShardingSphereRule> rules) {
    this.databaseType = databaseType;
    this.schema = schema;
    this.props = props;
    this.engines = OrderedSPIRegistry.getRegisteredServices(rules, ResultProcessEngine.class);
}

然后,调用merge 函数

// MergeEngine.java
public MergedResult merge(List<QueryResult> queryResults, SQLStatementContext<?> sqlStatementContext) throws SQLException {
    Optional<MergedResult> mergedResult = this.executeMerge(queryResults, sqlStatementContext);
    Optional<MergedResult> result = mergedResult.isPresent() ? Optional.of(this.decorate((MergedResult)mergedResult.get(), sqlStatementContext)) : this.decorate((QueryResult)queryResults.get(0), sqlStatementContext);
    return (MergedResult)result.orElseGet(() -> {
        return new TransparentMergedResult((QueryResult)queryResults.get(0));
    });
}

查询语句最终走到 ShardingDQLResultMerger 里

// ShardingDQLResultMerger.java
public MergedResult merge(List<QueryResult> queryResults, SQLStatementContext<?> sqlStatementContext, ShardingSphereSchema schema) throws SQLException {
    if (1 == queryResults.size()) {
        return new IteratorStreamMergedResult(queryResults);
    } else {
        Map<String, Integer> columnLabelIndexMap = this.getColumnLabelIndexMap((QueryResult)queryResults.get(0));
        SelectStatementContext selectStatementContext = (SelectStatementContext)sqlStatementContext;
        selectStatementContext.setIndexes(columnLabelIndexMap);
        // 判断要做哪种合并
        MergedResult mergedResult = this.build(queryResults, selectStatementContext, columnLabelIndexMap, schema);
        return this.decorate(queryResults, selectStatementContext, mergedResult);
    }
}

这里根据group by、distinct、order by等关键字做不同的归并处理

// ShardingDQLResultMerger.java
private MergedResult build(List<QueryResult> queryResults, SelectStatementContext selectStatementContext, Map<String, Integer> columnLabelIndexMap, ShardingSphereSchema schema) throws SQLException {
    if (this.isNeedProcessGroupBy(selectStatementContext)) {
        return this.getGroupByMergedResult(queryResults, selectStatementContext, columnLabelIndexMap, schema);
    } else if (this.isNeedProcessDistinctRow(selectStatementContext)) {
        this.setGroupByForDistinctRow(selectStatementContext);
        return this.getGroupByMergedResult(queryResults, selectStatementContext, columnLabelIndexMap, schema);
    } else {
        return (MergedResult)(this.isNeedProcessOrderBy(selectStatementContext) ? new OrderByStreamMergedResult(queryResults, selectStatementContext, schema) : new IteratorStreamMergedResult(queryResults));
    }
}
这里 logicsql 是 SELECT * FROM t_order
Actual SQL: ds_0 ::: SELECT * FROM t_order ORDER BY order_id ASC

在这里插入图片描述
所以上面走的是排序归并

最后归并完的结果如下图
在这里插入图片描述
我们修改过的avg语句,实际sql如下

Logic SQL: SELECT avg(user_id) FROM t_order_item 
SQLStatement: MySQLSelectStatement(limit=Optional.empty, lock=Optional.empty, window=Optional.empty) 
Actual SQL: ds_0 ::: SELECT avg(user_id) , COUNT(user_id) AS AVG_DERIVED_COUNT_0 , SUM(user_id) AS AVG_DERIVED_SUM_0 FROM t_order_item 
Actual SQL: ds_1 ::: SELECT avg(user_id) , COUNT(user_id) AS AVG_DERIVED_COUNT_0 , SUM(user_id) AS AVG_DERIVED_SUM_0 FROM t_order_item 

走的是分组归并
在这里插入图片描述
不过由于查询字段和之前的代码不一致,运行到设值的时候报错了

我们再次修改
修改examples/example-core/example-raw-jdbc/src/main/java/org/apache/shardingsphere/example/core/jdbc/repository/OrderItemRepositoryImpl.java

public List<OrderItem> selectAll() throws SQLException {
    String sql = "SELECT * FROM t_order_item group by status";
    return getOrderItems(sql);
}

然后执行 mvn install

再次运行 YamlRangeConfigurationExampleMain

在查询 t_order_item 的时候,走了分组归并
然后下面这段代码是控制走流式分组归并还是内存分组归并

// ShardingDQLResultMerger.java
private MergedResult getGroupByMergedResult(List<QueryResult> queryResults, SelectStatementContext selectStatementContext, Map<String, Integer> columnLabelIndexMap, ShardingSphereSchema schema) throws SQLException {
    return (MergedResult)(selectStatementContext.isSameGroupByAndOrderByItems() ? new GroupByStreamMergedResult(columnLabelIndexMap, queryResults, selectStatementContext, schema) : new GroupByMemoryMergedResult(queryResults, selectStatementContext, schema));
}

我们这条sql走的是流式分组归并
在这里插入图片描述
最后分组查出来的结果如下
在这里插入图片描述

总结

如果查询没有带分库分表键的话,查询结果就需要归并处理,所以查询语句最好带上分库分表键。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 算法10-12~10-14是关于归并排序的。 归并排序是一种基于分治思想的排序算法,它将待排序的序列分成两个子序列,对每个子序列进行排序,然后将两个已排序的子序列合并成一个有序序列。 算法10-12是归并排序的递归实现,它将待排序的序列不断地分成两个子序列,直到每个子序列只有一个元素,然后将这些子序列两两合并,直到最终得到一个有序序列。 算法10-13是归并排序的非递归实现,它使用迭代的方式将待排序的序列分成若干个子序列,然后将相邻的子序列两两合并,直到最终得到一个有序序列。 算法10-14是归并排序的优化实现,它使用插入排序来处理长度较小的子序列,以提高排序效率。具体来说,当子序列的长度小于等于一定阈值时,使用插入排序来排序,否则使用归并排序来排序。 ### 回答2: 归并排序是一种基于分治思想的排序算法。该算法的核心思想是将待排序的序列不断分割成更小的子序列,直到每个子序列只有一个元素,然后将这些子序列逐一合并,直到整个序列有序。因此,归并排序分为两个主要过程,分别是分割过程和合并过程。 分割过程:归并排序首先将待排序的序列均分成两个子序列,然后递归地对子序列进行分割,直到每个子序列只有一个元素。 合并过程:将两个有序的子序列合并成一个有序的序列。此时需要定义两个指针 i 和 j 分别指向两个子序列的起始位置,比较两个指针所指向的元素的大小,将较小的元素放到结果数组中并将指针向后移动,直到有一个子序列的指针到达了序列的末尾,然后将另一个子序列中未处理的元素依次放入结果数组中。 归并排序的时间复杂度为 O(N*logN),其中 N 为序列的长度。因此,归并排序是一种性能较好且稳定的排序算法,但由于其需要使用临时数组来辅助排序,因此空间复杂度为 O(N)。 总之,归并排序是一种高效且稳定的排序算法,适用于各种规模的序列。在实际应用中,可以使用多线程或并发编程来加速归并排序的执行过程,提高排序效率。 ### 回答3: 归并排序是一种常见的排序算法,采用了分治的思想,可以在最坏情况下也达到O(nlogn)的时间复杂度。它将一个大问题拆分成小问题,然后逐个解决小问题。下面是归并排序的基本流程: 1. 将待排序的序列按照中间位置分为两个子序列,分别排序。 2. 合并两个有序的子序列,形成一个新的有序序列。 具体实现时,我们可以使用递归或迭代两种方式。下面以递归方式来说明归并排序的实现。 算法10-12:递归实现归并排序 1. 将序列按中间位置分为左右两个子序列。 2. 对左右子序列分别递归调用归并排序。 3. 合并左右子序列。 算法10-13:合并两个有序序列 1. 定义一个新序列,长度为左右子序列之和。 2. 从两个子序列的头开始比较,将小的元素放入新序列中。 3. 将剩余的元素全部复制到新序列中。 算法10-14:归并排序时间复杂度 1. 分解阶段:将序列分为两个子序列,时间复杂度为O(logn)。 2. 合并阶段:合并两个有序序列,时间复杂度为O(n)。 3. 总时间复杂度为O(nlogn)。 归并排序虽然时间复杂度较低,但空间复杂度为O(n),需要额外的存储空间来存储临时序列。但相比其他排序算法,归并排序具有稳定性,适合处理大规模数据的排序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值