hive的join操作

最新推荐文章于 2024-07-29 11:41:47 发布

kClown1

最新推荐文章于 2024-07-29 11:41:47 发布

阅读量463

点赞数

本文链接：https://blog.csdn.net/qq_43227570/article/details/90207434

版权

hivejoin的三种形式

shuffle join：是hive中的普通的join方式，基于map/reduce实现，join的key通过shuffle汇集到相应的reduce里做join。这种join方式不考虑数据量和数据模型设计，比较耗费资源，是较慢的join策略。
map join，join时，将小表load到每个节点的内存中，和大表在该节点上的数据进行join，在map端完成join。其中的一个表必须为能完全加载到内存中。这种方式对大表只做单次扫描，速度较快。
sort-merge-bucket join（smb join）:参与join的表必须都是bucket存储，而且大表的bucket数量需要是小表的2倍。这种join方式受益于相同的key预先是bucket到一起的，可以加快join的速度。但由于对表设计有太多限制，故不常用

hive的join连接

left join:

 select * from l_join a left join r_join b on (a.id=b.id) where b.id is not null;

cross join:笛卡尔积
left semi join:相当于sql的in操作，跟上on条件右表重复的记录不会出现
join:操作跟上on条件，右表重复的记录也会出现，
mapjoin:
在hive0.11，当表小于25m会默认自动启动该优化，hive.auto.convert.join=true

 select /*+mapjoin(a)*/ * from l_join a left join r_join b on (a.id=b.id);

注意：
多表join是尽量把大表放在后面，因为回启动多个mapreduce，前面的结果会放到内存中。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kClown1

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hive优化相关（数据倾斜、join优化，分组聚合优化）

Li解Code的博客

05-02

731

一篇文章带你了解Hive SQL的优化（数据倾斜、join优化，分组聚合优化），以及相关参数设置。

hive入门学习：join的三种优化方式

最新发布

My_wife_QBL的博客

07-29

757

在 Hive 中，Join 操作是数据分析和查询的核心功能之一。通过合理选择 Join 类型和实现方式，用户可以有效地管理和分析大规模数据。理解各种 Join 类型及其实现方式，以及掌握优化策略，将有助于提升 Hive 查询的性能和效率。在大数据处理日益普及的今天，掌握 Hive 的 Join 操作无疑是数据工程师和分析师所必备的技能之一。

Hive中的join操作

读万卷书行万里路

04-24

608

1.Reduce Join操作 Reduce Join，也叫Common Join、Shuffle Join。Reduce操作就是在Reduce阶段完成Join操作，该操作包括一个完成的MapRedue过程，即需要经历Map阶段、Shuffle阶段、Reduce阶段。 Map阶段:该阶段输出的时候以Join On 条件中的列为key，如果Join On中涉及到多个键，则以这些关联键的组合为ke...

Hive中join有三种

qq_43528451的博客

05-06

620

Hive中join有三种 1、commonjoin 也称为shuffleJoin 走的是shuffle端的join，适合大表join大表，key的value值如果相等就进行join 2、mapjoin 大小表连接：如果一张表的数据很大，另外一张表很小（<1000行），将数据量小的表放在内存中，在map端做join。（join on）需要做不等值join操作（a.x<b.y或者a.x like b.y等）hvie中不支持不等值join操作，如果吧不等值写到where里会造成笛卡尔积，数据

hive sql + left join 数据缺失

02-29

随着Hive版本的不断更新，部分用户在升级至Hive 3之后遇到了数据处理中的一个常见问题——在执行Left Join操作时出现数据缺失。 #### 二、问题复现问题发生在如下的SQL语句中： ```sql SELECT a.* FROM ( SELECT ...

hive join操作踩坑记-报错信息FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr...

weixin_44528131的博客

06-26

2891

#Hive join操作踩坑记事件经过使用hive join操作时，肉眼可见同样的操作用时越来越长，同样的操作用时从一百多秒直接飙升到三四百秒，并且有时运行时汇报出错误信息 FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)。通过jobhistoryserver的记录显示一些reduce task运行失败了，报错信息为There are

【Hive】Hive Join 介绍

w1992wishes的博客

08-13

1087

文章目录一、Join二、Join 类型2.1、INNER JOIN 内连接2.2、LEFT OUTER JOIN 左外连接2.3、RIGHT OUTER JOIN 右外连接2.4、FULL OUTER JOIN 全外连接2.5、LEFT SEMI JOIN 左半开连接2.6、JOIN笛卡尔积三、Join 的实现原理3.1、Common Join3.2、Map Join四、Join 优化4.1、BU...

Hive查询、Hive Join和Hive集合操作

qianchun22的博客

09-17

478

Hive查询 SELECT基础 SELECT用于映射符合指定查询条件的行 Hive SELECT是数据库标准SQL的子集使用方法类似于MySQL #查询顾客表中地区为“NY”所在城市为'New York'的用户 select * from customers where customer_state="NY" and customer_city="New York"; #查询订单表中共有多少不同顾客下过订单 select count(distinct order_customer_id) from o

(08)Hive——Join连接、谓词下推

爱吃辣条的博客

02-13

2608

Hive的Join连接

Hive的三种Join方式

weixin_30840253的博客

03-26

1634

Hive的三种Join方式 hive Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins Common/Shuffle/Reduce Join Reduce Join在Hive中也叫Common J...

Hive中join的三种方式

ronaldo-liu的博客

11-21

1377

一.common join common join也叫做shuffle join，reduce join操作。适用于两个table的大小相当，但是又不是很大的情况下使用。具体流程就是在map端进行数据的切分，一个block对应一个map操作，然后进行shuffle操作，把对应的block shuffle到reduce端去，再逐个进行联合。缺点：容易产生数据倾斜，大数据量下性能不好 ...

【Hive】数据倾斜优化 shuffle, join, group by

一往无前

09-24

3364

总结一下数据倾斜的优化。首先从导致数据倾斜的原因方面分析入手，主要是groupby和join的相关操作，这两个操作都会把相同的key拉到同一个reduce，如果其中某些key分布不均数量过大，这就会导致数据倾斜了。 groupby导致的数据倾斜优化： select --最后汇总 pkg ,sum(part_cnt) as installed_cnt from ( --先局部关联 select substr(pkg_new, 1, lengt..

Hive如何实现join操作

qiulinsama的博客

05-17

996

Hive如何实现join操作这两张表都有一个相同的字段userid，根据这个字段可以将两张表连接起来，pv_users表， SQL命令是 SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 同样，这个SQL命令也可以转化为MapReduce计算，连接的过程如下图所示。从图上看，...

HIVE中join连接全解析

默默耕耘，阶段爆发，取长补短，修炼身心

06-01

2793

续写：SQL ON Hadoop-Hive（二）-DDL数据定义语言 1.多表join select * from table1 t1 join table2 t2 on t1.id=t2.id join table3 t3 on t1.id=t3.id --第一个作业的输出与表3的连接操作 --目前hive只支持等值join,不支持非等值的连接(很难转化成map/reduce任务)...

数据库分布式Join类型及意义Broadcast Join、Shuffle Join 和 Colocate Join

wangxuewei的博客

02-15

1388

分布式Join之Broadcast Join、Shuffle Join 和 Colocate Join

Hive的多种JOIN优化

qq_654603797

03-20

2274

案例一： select a.id,a.number,b.number,c.number from table_tmp a join table_tmp b on a.id = b.id join table_tmp c on a.id = c.id where a.business = 'A' and b.business = 'B' and c.business = 'C' 如上例中，Hive会对每对join连接对象启动一个MaoReduce任务。首先启动一个MapReduce job对表a和

《Hive官方文档》Hive - Joins 学习笔记

TRX的博客

04-01

1091

官网链接：Hive官方文档 hive 0.13.0以后的版本，支持了隐式join标记。例如 SELECT * FROM table1 t1, table2 t2, table3 t3 WHERE t1.id = t2.id AND t2.id = t3.id AND t1.zipcode = '02535' 这样的写法，等同于 SELECT * FROM table1 t1 JOIN table2 t2 ON t1.id = t2.id AND t1.zipcode = '02535' JOI

Hive Join优化策略探索

“这篇资料主要介绍了Facebook在Hive中进行Join操作的各种优化策略，包括但不限于Common Join、MapJoin、AutoMapJoin、BucketMapJoin、BucketSortMergeMapJoin以及Skew Join等，旨在提升Hive在大数据环境下的性能。...