Hive优化之MapJoin

最新推荐文章于 2024-05-11 08:46:25 发布

C_x_330

最新推荐文章于 2024-05-11 08:46:25 发布

阅读量186

点赞数

分类专栏： Hive 文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/C_x_330/article/details/128519413

版权

Hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

MapJoin是一种在Hive中提高查询效率的技术，它通过将小表分发到Map端进行JOIN操作，避免了在Reduce阶段处理，从而减少了数据倾斜的问题。这种技术适用于左连接，并且有小表大小的限制（默认25MB）。但要注意，小表不能在左连接中做为主表，否则会导致结果重复。

摘要由CSDN通过智能技术生成

MapJoin

将join双方比较小的表直接分发到各个的Map端进程中,再Map进程中进行Join操作，这样就不用再Reduce进行处理，提高了速度；如果不进行MapJoin或者不符合MapJoin，则会把数据弄到Reduce中处理，这样会造成数据倾斜现象

/*
默认开启 set hive.auto.concert.join
小表定义：set hive.mapjoin.smalltable.filesize  25M   25_000_000
select
	big.id
from  big
left join small 
on big.id=small.id
注意：left join 的时候小表不能在做,会出现重复

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

C_x_330

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive的ReduceJoin/MapJoin/SMBJoin

someInNeed的博客

03-27

651

Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins 1.Reduce /Common/Shuffle Join Reduce Join在Hive中也叫Common Join或Shuffle Join 如果两边数据量都很大，它会进行把相同key的value合在一起，正好符合我们在sql中的join，然后再去组合，如图所示。 .

Hive join优化（mapjoin，streamtable）

野生大头鱼

10-12

3795

一、 Join语法Hive支持的join语法：join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference L

参与评论您还未登录，请先登录后发表或查看评论

Hive MapJoin 优化

liuxianbing119的专栏

03-13

9286

1、Hive本地MR 如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地内存是吃不消的。 So the query processor will launch this task in a child jvm, which has the same heap size as the Map

Hive优化之Mapjoin

异乡流狼

11-28

1110

一、场景 MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率。二、使用 2.1 Hive v0.7 之前通过在查询语句中增加一个标记进行触发： SELECT /*+ MAPJOIN(smalltable)*/ sma...

Hive中mapjoin优化例子

wisgood的专栏

04-24

3265

1 基本信息 3个表，1个事实表，2个维度表事实表 test_fact （mid string,sex_id string,age_id string ）维度表dim_user_demography_age （age_id string,age_name string ）维度表dim_user_demography_sex （sex_id string,sex_name strin...

hive性能优化使用map join

weixin_42412645的博客

06-02

4794

在实际业务逻辑中经常进行两张表的join，不管是两张大表关联还是一张大表一张小表关联会出现经常数据倾斜。下面介绍一下我在工作使用的总结：原始数据page_test ![原始表page_tes](https://img-blog.csdnimg.cn/2019060218111211.png) 原始数据city 1.Common join原理（select a.user_id,...

hive之Map Join使用方法

热门推荐

ImezZ

04-08

1万+

介绍 MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表...

Hive中的Map join 简单了解

Bruce_Selina的博客

10-13

580

Hive中的Map join 简单了解

【Hive】性能调优 - Map JOIN

qq_40382400的博客

06-03

878

map-side JOIN可以省掉reduce过程，从而提高Hive效率；Hive 0.11.0版本后，默认开启自动map-side JOIN优化，我们需要合理调整hive.auto.convert.join.noconditionaltask.size参数值。

Hive优化--Map Join

yyGeek的博客

03-09

485

适用场景：大表join小表Map Join算法可以通过两个只有map阶段的Job完成一个join操作。

hive的join优化

lijian972的博客

05-17

3730

hive的join 优化

hive中的join相关的优化

qq_42456324的博客

04-20

3734

1、mapjoin 顾明思议，mapJoin的意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作(执行mr过程的map操作)。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join会在map阶段完成，仅仅是在内存就进行了两个表的join，并不会涉及reduce操作。map端join的优势就是在于没有shuffle，从而提高效率。在实际的

Hive大表join大表如何调优

最新发布

认真学代码的shell

05-11

2833

在Hive中，优化器会根据统计信息决定是将大表放在前面（Join的左边）还是小表放在前面。通常，优化器会选择数据量较小的表作为驱动表（小表作为左边），因为这样可以减少内存消耗并提高效率。但是，如果你有特定的需求，比如你知道大部分数据能快速过滤掉，希望减少任务的执行时间，那么你可以强制指定某个表作为小表。在Hive中，可以使用/*+ MAPJOIN(table_name) */ 注释来强制将一个大表作为小表处理。

Hive表的优化

belle_mei的博客

04-15

888

将 key 相对分散，并且数据量小的表放在 join 的左边，可以使用 map join 让小的维度表先进内存。在 map 端完成 join。实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有区别。1）空 KEY 过滤有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数

Spark SQL中实现Hive MapJoin

cxu123321的博客

03-03

2245

Spark SQL中实现Hive MapJoin Sparklxw1234@qq.com5年前 (2015-06-19)10761℃1评论在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用Map Task扫描大表的同时，完成join，这对join的性能提升非常多。 ...

Hive mapjoin使用

m0_67394230的博客

04-03

1766

方法一 set hive.auto.convert.join = true; --是否开自动mapjoin set hive.mapjoin.smalltable.filesize;–mapjoin的表size大小以上两个参数同时使用，在hive.auto.convert.join为true时，只要小表size小于hive.mapjoin.smalltable.filesize的设置值，并且小表不是关联操作的最后一张表，小表就会走mapjoin。 set hive.auto.convert.join =

(第九章) Hive企业级调优之MapJoin

汪云辉的博客

11-07

191

Hive企业级调优之MapJoin 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。 1．开启MapJoin参数设置（1）设置自动选择Mapjoin set hive.auto.co...

HIVE优化实践：UDF应用与MAPJOIN优化解析

1. **MAPJOIN的数据倾斜**：在CBU-DW的"ids_cn_fb_fdt0"优化案例中，由于session数据倾斜，部分session_id对应的step数量非常多，导致了数据处理的不均衡。解决方法包括增加map任务的数量，使得数据分布更加均匀，...