hash join的基本原理是怎样的？

数据源的港湾

已于 2023-11-20 14:26:16 修改

阅读量1.5k

点赞数

分类专栏：架构数据库原理文章标签：哈希算法算法

于 2023-10-17 09:24:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Post_Yuan/article/details/133875672

版权

我们知道数据库里面两表关联主要有三种常见的关联方式，即

nested loop join
hash join
merge join

nested loop join在OLTP交易场景占比是最多的，常用于关联字段为主键或索引字段的情况，通过主键或索引以及loop的方式，A表可以快速查找到匹配的B表中的数据。

merge join又称为sort merge，可想而知，如果被关联的两个数据集正好是有序的，那么采用这种方式是最高效的。

hash join则是把一个表（通常为小表）放在hash内存中，进行匹配关联。

虽然知道这点简单的理解，不过当别人问起来hash join具体怎么实现的时候，发现并不能说出个一二，看来还是应该我去熟悉一下底层的原理。参考网上关于hash join原理的一二之后，也用本篇文章稍作记录，作为一个学习的过程吧~

背景概念

所谓连接（join）是通过把多个表之间某列相等的元组提取出来组成新的表。两个表如果元数目过多，逐个遍历开销就很大（这里说的其实就是nested join），哈希连接（hash join）就是一种提高连接效率的方法。

自Oracle 7.3以来就实现了hash join的技术，MySQL则是在最新的8.0版本中实现了hash join。Hash join只能用于相等连接，相对于nested loop join，hash join更适合处理大型结果集。Hash join不需要在驱动表上存在索引。

基本概述

Hash join算法的基本思想是根据小表（记为S表&#

最低0.47元/天解锁文章

数据源的港湾

博客等级

码龄9年

504
原创

631
点赞

793
收藏

253
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

HDFS missing blocks的处理办法
sunnzy_Wang: hadoop fsck / 时会输出路径
分布式一致性问题之混合逻辑时钟
nn_wai: 你这个第二版算法的if条件判断根本不对，else if pt.j <= l.j and l.m <= l.j then c.j = c.j + 1，如果pt.j < l.j && l.m==l.j呢，这时候要比较c.j 和c.m，原论文的判断条件避免了这种边界的case情况，文中的三个case无非就是想判断哪个的物理时钟是最大的，但是忽略了两两相等的边界case
TDH（Transwarp Data Hub）社区版安装教程
星环科技TDH社区版: 前段时间TDH社区版重新重磅推出，同时还推出了单机即可30秒一键启动的社区开发版，具体可以访问下方链接获取更多社区版相关资源：https://community.transwarp.cn/article/detail?id=247
TDH（Transwarp Data Hub）社区版安装教程
星环科技TDH社区版: 前段时间社区版重新重磅推出，同时还推出了单机即可30秒一键启动的社区开发版，具体可以访问下方链接获取更多社区版相关资源：https://community.transwarp.cn/article/detail?id=247
Oracle ADG的基本概念
FC-Barcelona: 您好，请教一下两个疑问 1、 “以介质恢复的方式”指的啥。 2、最大保护模式下提供的是物理备库吗。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数据源的港湾 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。