sort merge join java_TiDB 源码阅读系列文章（十五）Sort Merge Join

最新推荐文章于 2024-08-14 14:01:39 发布

Eve.薇薇

最新推荐文章于 2024-08-14 14:01:39 发布

阅读量272

点赞数

文章标签： sort merge join java

本文链接：https://blog.csdn.net/weixin_29516131/article/details/114090199

版权

本文介绍了 Sort Merge Join (SMJ) 的基本概念，详细阐述了 TiDB 中 SMJ 的执行过程，包括读取内外表数据、数据比较和结果生成。SMJ 通过排序和迭代器进行数据合并，适用于连接列为索引列的情况。文章还讨论了 TiDB 在内存管理和避免 OOM 方面的优化策略。

摘要由CSDN通过智能技术生成

什么是 Sort Merge Join

在开始阅读源码之前, 我们来看看什么是 Sort Merge Join (SMJ)，定义可以看 wikipedia。简单说来就是将 Join 的两个表，首先根据连接属性进行排序，然后进行一次扫描归并, 进而就可以得出最后的结果。这个算法最大的消耗在于对内外表数据进行排序，而当连接列为索引列时，我们可以利用索引的有序性避免排序带来的消耗, 所以通常在查询优化器中，连接列为索引列的情况下可以考虑选择使用 SMJ。

TiDB Sort Merge Join 实现

执行过程

TiDB 的实现代码在 tidb/executor/merge_join.go 中 MergeJoinExec.NextChunk 是这个算子的入口。下面以 SELECT * FROM A JOIN B ON A.a = B.a 为例，对 SMJ 执行过程进行简述，假设此时外表为 A，内表为 B，join-keys 为 a，A，B 表的 a 列上都有索引：

顺序读取外表 A 直到 join-keys 中出现另外的值，把相同 keys 的行放入数组 a1，同样的规则读取内表 B，把相同 keys 的行放入数组 a2。如果外表数据或者内表数据读取结束，退出。

从 a1 中读取当前第一行数据，设为 v1。从 a2 中读取当前第一行数据，设为 v2。

根据 join-keys 比较 v1，v2，结果分为几种情况：

cmpResult > 0, 表示 v1 大于 v2，把当前 a2 的数据丢弃，从内表读取下一批数据，读取方法同 1。重复 2。

cmpResult < 0, 表示 v1