Hive的join方式

最新推荐文章于 2024-07-29 11:41:47 发布

K. Bob

最新推荐文章于 2024-07-29 11:41:47 发布

阅读量4.3k

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/ThreeAspects/article/details/90581875

版权

本文介绍了Hive的三种join方式：Shuffle Join，Map Join和SMB Join。Shuffle Join在MapReduce阶段完成，适合大规模数据。Map Join通过广播小表提高效率，适用于小表与大表连接。SMB Join则在大表连接时通过预分区减少数据传输。了解这些特性有助于优化Hive查询性能。

摘要由CSDN通过智能技术生成

Hive的三种join方式：

Common/Shuffle/Reduce Join（正常/一般情况）
Map Join（大小表join、不等值join、结合union all） 
SMB(Sort-Merge-Buket) Join（大表join大表）

Shuffle Join

Shuffle Join在Hive中也叫Common Join或Reduce Join。如果两边数据量都很大，它会进行把相同key的value合在一起，然后再去组合。

• Map阶段：
o 读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为key，Map输出的value为join之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的Tag信息，用于标明此value对应哪个表
• Shuffle阶段：
o 根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中
• Reduce阶段：
o 根据key的值完成join操作，期间通过Tag来识别不同表中的数据

Map Join

Map Join是在Map阶段进行表之间的连接，而不需要进入到Reduce阶段才进行连接，节省了在Shuffle阶段时要进行的大量数据传输，从而起到了优化作业的作用。Hive内置提供的优化机制之一就包括Map Join。

Map Join的原理：
其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布在不同的Map中进行处理。要使Map Join能够顺利进行，就必须满足：除了一份表的数据分布在不同的Map中外，其他连接的表的数据必须在每个Map中有完整的拷贝。Map Join会把小表全部读入内存中，在Map阶段直接拿另外一个表的数据和内存中表数据做匹配 (这时可以使用DistributedCache将小表分发到各个节点上，以供Mapper加载使用)，