【CMU 15-445】Lecture 11: Joins Algorithms 学习笔记-CSDN博客

本文链接：https://blog.csdn.net/cpp_juruo/article/details/135035135

Joins Algorithms

Nested Loop Join
Sort-Merge Join
Hash Join
- Basic Hash Join
- Partitioned Hash Join
Conclusion

本节课主要介绍的是数据库系统中的一些Join算法

Nested Loop Join

Naive Nested Loop Join

最简单的Join算法就是遍历两个表中的所有tuple，这会使得内层关系的块被反复读取。假设外层关系R的数据块数量为 $M$ ，tuple数量为 $m$ ，内层关系S的数据块数量为 $N$ ，则总的IO复杂度为 $M + m * N$ 。
在这里插入图片描述

BLock Nested Loop Join

在简单的Naive Nested Loop Join中，没有充分利用内存缓冲页，假设内存缓冲页数量为 $B$ ，则可以一次性加载 $B - 2$ 个外层关系R的记录块进行处理，如下图所示。IO复杂度约为 $M+\lceil M/(B-2) \rceil*N$ 。
在这里插入图片描述

Index Nested Loop Join

在上述两种基本的Nested Loop Join中，性能的瓶颈在于对于外层关系R中的每一个元组，都需要遍历内层关系S中的元组进行判断。可以使用索引对判断进行优化，直接找到内层关系S中符合条件的元组进行输出。具体的做法是，在关系S的连接属性上建立索引，对于R中的每一个元组，根据索引找到对应的S中元组进行连接。假设在索引上查找的代价为 $C$ ，则总IO复杂度为 $M + m * C$ 。