MapJoin

YB西部牛仔

已于 2023-03-06 15:45:26 修改

阅读量229

点赞数

文章标签： hive 大数据 hadoop Powered by 金山文档

于 2023-01-13 17:37:58 首次发布

本文链接：https://blog.csdn.net/qq_28786285/article/details/128659271

版权

文章介绍了Hive中的MapJoin优化技术，包括自动开启mapjoin的配置hive.auto.convert.join以及控制小表大小的hive.mapjoin.smalltable.filesize属性。当小表数据量小于25MB时，会被加载到内存中。MapReduce任务通过DistributedCache将小表的HashTable文件分发到各个Mapper，实现Map阶段的Join操作，减少Reduce步骤。此外，sethive.ignore.mapjoin.hint参数用于控制是否忽略MapJoin的注释提示。

摘要由CSDN通过智能技术生成

1. 两个属性来设置该优化的触发时机：

1.hive.auto.convert.join=true (default :true)，自动开启mapjoin优化

2.hive.mapjoin.smalltable.filesize 默认值为2500000(25M),通过配置该

属性来确定使用该优化的表的大小，如果表的大小小于此值就会被加载进内存中

a. 通过MapReduce Local Task，将小表读入内存，生成HashTableFiles上传至Distributed Cache中

b.每个Mapper从Distributed Cache读取HashTableFiles到内存中,在Map阶段直接进行Join,此时的map数由大表的数据量决定

2. set hive.ignore.mapjoin.hint=true (default :true)，为true时注释方式不生效，为false 时注释方式生效，强行指定需要加入内存走mapjoin的表。

set hive.ignore.mapjoin.hint=true;
 
select /*+ mapjoin(table2) */ * 
from table1
inner join table2 --小表，size 5M
on 1=1;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YB西部牛仔

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据基础篇--Common Join 和Map Join的机制

qq_43709558的博客

10-06

803

mapjoin

【MapReduce】Map Join和Reduce Join

HR的博客

04-07

1323

Map Join和Reduce Join俩种Join的介绍MapReduce JoinReduce JoinMap Join数据Reduce Join自定义类Mapper阶段Reduce阶段Driver阶段结果Map JoinMapper阶段Driver阶段结果俩种Join的介绍 MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题。如果数据量比较小，完全可以在内存中完成连接；如果数据量比较大，在内存进行连接操会发生内存溢出（OOM）。那么此时就可以用 Map

参与评论您还未登录，请先登录后发表或查看评论

MAPJOIN

eli的博客

09-13

5367

当您对一个大表和一个或多个小表执行join操作时，可以在select语句中显式指定mapjoinHint提示以提升查询性能。本文为您介绍如何通过mapjoin hint连接表。功能介绍整个JOIN过程包含Map、Shuffle和Reduce三个阶段。通常情况下，join操作在Reduce阶段执行表连接。 mapjoin在Map阶段执行表连接，而非等到Reduce阶段才执行表连接，可以缩短大量数据传输时间，提升系统资源利用率，从而起到优化作业的作用。在对大表和一个或多个小表执行join操作时，.

hive 大小表mapjoin 遇到udf失效问题

a312428841的博客

12-02

835

hive 大小表mapjoin 遇到udf失效问题执行结果有三个重要信息： /tmp/liangxin/liangxin_20201026173636_ddccc70a-1019-49d4-9cc8-6b072023187a.log Stage-4 /tmp/liangxin/hive.log 问题分析：打开第一个文件发现udf函数没找到，对比执行sql，on dwc_mart.transtring(a.altitem)=dwc_mart.transtring(b.pa_code)

hive 中的map join 操作

热门推荐

u013385925的专栏

08-22

1万+

今天遇到一个Hive的问题，如下hive sql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

hive1.1版本中mapjoin踩到的一个坑

xiao_jun_0820的专栏

07-21

3274

可以通过设置hive.auto.convert.join.noconditionaltask.size这个参数来将一个小表变成hashtable然后作为分布式缓存文件分发到各个worker节点，进而实现Map side join。map side join有许多优势，顾名思义就是没有了reduce的过程，这样可以用来解决join的时候数据倾斜的问题。一般应用在大表和小表join的场景下，这样我

Hive mapjoin使用

一直在水些技术小文

09-06

594

以上两个参数同时使用，在hive.auto.convert.join为true时，只要小表size小于hive.mapjoin.smalltable.filesize的设置值，并且小表不是关联操作的最后一张表，小表就会走mapjoin。如果mapjoin生效会在mr日志中看到以下打印日志。

【MapReduce篇06】MapReduce之MapJoin和ReduceJoin1

08-04

MapReduce之MapJoin和ReduceJoin MapReduce是一种分布式计算模型，广泛应用于大数据处理和分析领域。其中，Join操作是 MapReduce 中的一种基本操作，用于连接来自不同数据源的数据。今天，我们将讲解 MapReduce 之 ...

mapjoin

人的大脑是cpu，而不是硬盘

06-29

113

把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多

Hive：调优

程序猿启程

08-24

197

Hive 优化核心思想：把 Hive SQL 当做 Mapreduce 程序去优化以下 SQL 不会转为 Mapreduce 来执行 select 仅查询本表字段 where 仅对本表字段做条件过滤 Explain 显示执行计划 explain extended SQL语句 Hive 抓取策略 Hive 中对某些情况的查询不需要使用 MapReduce 计算抓取策略 Set hive.fetch.task.conversion=...

Hive mapjoin使用

lquarius的博客

07-31

8789

方法一 set hive.auto.convert.join = true; --是否开自动mapjoin set hive.mapjoin.smalltable.filesize;--mapjoin的表size大小以上两个参数同时使用，在hive.auto.convert.join为true时，只要小表size小于hive.mapjoin.smalltable.filesize的设置值，并且小表不是关联操作的最后一张表，小表就会走mapjoin。 set hive.auto.conve...

hive sql使用总结

lhxsir的博客

07-07

735

Hive设置多个reduce方法：set mapred.reduce.tasks = 2; (1) order by/distribute by/sort by/cluster by区别 order by #全局排序 sort by #局部排序，单独reduce中进行排序 distribute by #分桶排序，相同KEY的记录被划分到一个Reduce cluster by =distribute by+ sort by #分桶排序 cluster by id,name 默认是升序，且不可指定asc或de

hive配置项优化解决关于hive表多表关联的问题

weixin_40242658的博客

05-06

2556

1.场景： hive多表关联使用join关联时，sql语句不执行。如下sql： select b.phoneno,b.statuscode,b.strategyid from whphone a left join rm_workerorder_info b on a.phoneno=b.phoneno where a.time<b.opertime and b.channelid=‘0’...

Hive 编程专题九： SQL Join 的那点坑

wujiandao的专栏

11-20

4267

环境： Hive: 2.7.7 Oracle SQL Developer Cloudera JDBC Driver 案例 - 1 ：非全等 Join 失效 select a.*, b.* from default.employee a inner join default.employee b on a.salary < b.salary 异常： SQL 错误: [Cloudera...

hive之Map Join使用方法

ImezZ

04-08

1万+

介绍 MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表...

mapjoin的使用方法以及注意事项

子小的博客

09-10

1万+

mapjoin的使用方法以及注意事项 mapjoin的简介 MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多，算是hive中的一种优化 mapjoin的使用方法例如： select /*+ mapjoin(t)*/ f.a,f.b from A f join B t on f.a=t.a 前提b表是一张小表，默认25m的表是小表注意事项使用mapjoin时，一次性加载到内存

hive的MapJoin机制

Inner Peace

09-12

8991

什么是MapJoin? MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 MapJoin的原理：即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布在不同

hive mapjoin 使用和个人理解

原创学无止尽

02-27

1万+

遇到一个hive的问题，如下hive sql： select t1.a,t1.b from table t1 join table2 t2 on ( t1.a=t2.a and t1.datecol=20110802) 该语句中B表有30亿行记录，t1表只有100行记录，而且t2表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中