HIVE 和 join 有关的优化问题

明明不会打代码

于 2024-05-23 14:59:02 发布

阅读量244

点赞数 1

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/m0_62336238/article/details/139068186

版权

大表 join 小表：

分析性能不好的原因：

大表 join 小表其底层采用的是 mapReduce 计算，在默认无优化的情况下，会伴随数据大表和小表的数据一同进入 reduce 阶段，进行计算，这时往往数据移动量比较大，造成 IO 效率和 IO 压力比较大，使得计算效率下降

解决的办法：MapJoin 机制策略

使用 MapJoin 机制策略，这是专门解决大表和小表 join 的最有效策略。

该策略的运行原理：1. 顾名思义，在 map 端就进行 join 操作；

2. 将小表的数据移动到大表所在的机器上，从而完成大表数据不移动的前提下，跟小表数据进行 join 计算。

该策略的注意事项：

小表数据多小算小？（两个核心参数要注意）

hive.auto.convert.join 默认为 true

hive.mapjoin.smalltable.filesize 默认为 25000000 即为 25M

大表 join 大表

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

明明不会打代码

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hive SQL之FULL JOIN优化

胜利的曙光的博客

03-16

4458

记一次工作中SQL的FULL JOIN优化过程。

Hive---Join 优化

BestbpF的博客

11-06

3126

1、连接顺序优化多表连接，会转换成多个MR Job，每一个MR Job在Hive中称为JOIN阶段（Stage）。在每一个Stage，按照JOIN顺序中的最后一个表应该尽量是大表，因为JOIN前一阶段生成的数据会存在于Reducer的buffer中，通过stream最后面的表，直接从Reducer的buffer中读取已经缓冲的中间结果数据（这个中间结果数据可能是JOIN顺序中，前面表连接的结果的Ke

1 条评论您还未登录，请先登录后发表或查看评论

Hive大表join大表如何调优

认真学代码的shell

05-11

2555

在Hive中，优化器会根据统计信息决定是将大表放在前面（Join的左边）还是小表放在前面。通常，优化器会选择数据量较小的表作为驱动表（小表作为左边），因为这样可以减少内存消耗并提高效率。但是，如果你有特定的需求，比如你知道大部分数据能快速过滤掉，希望减少任务的执行时间，那么你可以强制指定某个表作为小表。在Hive中，可以使用/*+ MAPJOIN(table_name) */ 注释来强制将一个大表作为小表处理。

hive大小表join性能优化

dijuan6962的博客

09-03

411

当一个大表和小表进行join操作时，使用mapjoin性能比普通的join要快很多，mapjoin还能解决数据倾斜问题，基本原理：在小数据量情况下，会将小表全部加载到执行join操作的程序的内存中，从而加快join的执行速度。大小表join时，将小表放在前面，会将小表进行缓存。 mapjoin将小表放入内存，在map端和大表逐一匹配，省去reduce操作转载于:https://...

hive大小表join优化性能

挖矿的小强的博客

12-12

2万+

摘要： MAPJOIN 当一个大表和一个或多个小表做JOIN时，最好使用MAPJOIN，性能比普通的JOIN要快很多。另外，MAPJOIN 还能解决数据倾斜的问题。 MAPJOIN的基本原理是：在小数据量情况下，SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中，从而加快JOIN的执行速度。 1、小、大表 join 在小表和大表进行join时，将小表放在前边，效率会高。hive...

Hive调优之小表Join大表

qq_45831607的博客

12-20

2812

结果：这样的后果就是所有为null值的id全部都变成了相同的字符串“hive”，及其容易造成数据的倾斜（所有的key相同，相同key的数据会到同一个reduce当中去）为了解决这种情况，我们可以通过hive的rand函数，随记的给每一个为空的id赋上一个随机值，这样就不会造成数据倾斜。有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的reducer上。3.1、空key过滤。

Hive表的优化

belle_mei的博客

04-15

805

将 key 相对分散，并且数据量小的表放在 join 的左边，可以使用 map join 让小的维度表先进内存。在 map 端完成 join。实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有区别。1）空 KEY 过滤有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数

hive join 优化 --小表join大表

热门推荐

架构师思考实践

10-25

2万+

1、小、大表 join 在小表和大表进行join时，将小表放在前边，效率会高，hive会将小表进行缓存。 2、mapjoin 使用mapjoin将小表放入内存，在map端和大表逐一匹配，从而省去reduce。例子： select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1 在0.7版本

hive 中join和Group的优化

01-07

group by 优化 set hive.map.aggr = true; //是否在 Map 端进行聚合，默认为 True ；该设置会消耗更多的内存。 set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive....

hive sql + left join 数据缺失

02-29

问题的核心在于Hive 2 和 Hive 3 版本之间对于JOIN操作的实现方式存在差异。具体来说，这是由于不同版本的Hive在JOIN操作时采用了不同的Hash算法导致的。具体细节如下： 1. **Hive 2 vs Hive 3 的Hash算法差异**： ...

Hive中数据倾斜Join操作优化

fengfengzai0101的博客

12-09

841

例子加入系统中有两种表表1：事实表包含100万条记录有一个CODE_ID字段，数据类型是Integer，范围是1-10K 99万条记录中CODE_ID字段值是250 1万条记录的CODE_ID值是平均分配到剩余的值中表2：维度表 5. 包含1万条记录 6. 表太大而不能进行Map端的join操作 7. 有CODE_ID字段，是唯一值可以看到在事实表中有99%记录在CODE_ID字段...

Hive 表的优化

大数据流浪法师的学习笔记与分享

11-28

352

表的优化 Join Join原则： 1）小表Join大表将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。 select count(distinct s_id) from score; select count(s_id) from scor...

hive表间的四种优化

weixin_49196517的博客

01-30

950

hive的优化问题

hive中的join相关的优化

qq_42456324的博客

04-20

3690

1、mapjoin 顾明思议，mapJoin的意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作(执行mr过程的map操作)。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join会在map阶段完成，仅仅是在内存就进行了两个表的join，并不会涉及reduce操作。map端join的优势就是在于没有shuffle，从而提高效率。在实际的

大数据学习（三十五）hive中大表join小表优化方法

weixin_44702289的博客

02-21

1480

hive优化

Hive中小表与大表关联(join)的性能分析

niuyan666的博客

07-08

1239

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内存中放不下怎么办？我用2个只有几条记录的表做关联查询，这应该算是小表了，在查看reduce的执行日志时依然是有写磁盘的操作的。实际上reduce在接收全部map的输出后一定会有一个排序所有键值对并合并写入磁盘

Hive优化总结

GodxvA

03-30

8164

一、SQL本身的优化 1、只select需要的列，避免select * 2、where条件写在子查询中，先过滤再关联 3、关联条件写在on中，而不是where中 4、数据量大时，用group by代替count distinct 5、数据量小时，用in代替join 6、避免笛卡尔积 7、join时大表放后面，使用相同的连接键 7、严格格式 Hive.mapred.mode，分 nonstrict，strict，默认是nonstrict，如果设置为strict，对三种情况限制：（1）分区表必须加分区。

大表join小表优化

zhuiqiuuuu的博客

04-26

2696

大表join小表优化　　　　　　和join相关的优化主要分为mapjoin可以解决的优化（即大表join小表）和mapjoin无法解决的优化（即大表join大表），前者相对容易解决，后者较难，比较麻烦。　　　　　　首先介绍大表join小表优化。以销售明细表为例来说明大表join小表的场景。　　　　　　假如供应商进行评级，比如（五星、四星、三星、二星、一星），此时因为人员希望能够分析各供应商星级的每天销售情况及其占比。　　　　　　开发人员一般会写出如下SQL：　　　　　　selects..

oracle/hive下两个大表的关联如何进行优化

weixin_49196517的博客

11-16

4007

ORACLE/HIVE下两个大表优化

hive left join 优化