HiveSql（1）mapjoin、分区表

最新推荐文章于 2024-08-01 08:57:56 发布

数据分析师小陈

最新推荐文章于 2024-08-01 08:57:56 发布

阅读量1.6k

点赞数 2

分类专栏： Hive sql 文章标签： mapjoin 分区表不等值匹配 sql hive

本文链接：https://blog.csdn.net/qq_25616833/article/details/50484241

版权

Hive sql 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

mapjoin、分区表、不等值匹配

业务需求：

A表，小表，穷举的100个动漫电影的IP，表结构ip（id string, key string）

B表，大表，每天的交易数据，上亿条，表结构order（ds string, item_titlestring,buyer_id string, fee string）

现在想要得到这100个动漫电影相关产品的每天的销售额、购买人数。

SQL：

1、建表

create table if not exists jieguo

(

ds string,

fee string ,

cnt string

)

partitioned by (pt string )

2、跑数据

Insert overwrite table jieguo partition (pt=201503)

Select /*+MAPJOIN(a)*/

b.ds,sum(b.fee),count(b.buyer_id)

from ip b

Join

(Select ds, fee,buyer_id

From order

Where ds>=20150101 and ds<=20150331

On instr(b.item_title,a.key)>0

Group by b.ds

学习要点：

1、/*+MAPJOIN*/的用法

如果关联的2张表大小差距悬殊或者进行不等值连接时，一般的join会导致运行速度很慢，使用mapjoin可以有效提高效率

使用场景：

（1）关联操作中的一张表非常小

（2）不等值连接

Select /*+MAPJOIN(a)*/，括号里加的是小表的名称

2、分区表

如果输出的数据比较多，可以采取分区的形式

建表时加一条语句partitioned by

跑数据时Insert overwrite table jieguo partition (pt=201503)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数据分析师小陈

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive中JOIN的用法以及一些注意事项总结。

i000zheng的博客

05-15

6955

常见用法Hive表连接的语法支持如下：join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI...

hivesql中使用join 关联表时where 和 on、join 的执行先后顺序

最新发布

My_wife_QBL的博客

08-01

810

Map Join 是 Hive 中一种有效的优化 Join 操作的技术，能够显著提高查询性能。在处理小表与大表的 Join 时，Map Join 通过在 Mapper 阶段进行连接，避免了 Shuffle 和 Sort 的开销，从而提升了性能。

hivesql优化技巧之一 mapjoin

sdscsjmd的博客

08-30

897

mapjoin可以优化两种场景下的数据join： 1.有一张表很小 2.不等值的链接操作

hive sql优化-join Mapjoin Group by

09-29

3645

join 按照key进行分发，key的合并在map阶段，而在join左边的表，也就是主表，会首先读入内存，当然它不是全部读入内存，而是部分读入内存，如果左边的表的key相对分散（或少，分散的意思就是相同key的数据量小），读入内存的数据会比较小，join任务执行会比较快。而如果左边的表的key比较集中，而这张表的数据量很大，那么数据倾斜会比较严重。 map阶段同一key数据分发给一个redu

MapJoin

feizuiku0116的博客

11-03

1400

一、描述 MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。二、使用条件除了一份表的数据分布在不同的Map中外，其他连接的表的数据必须在每个Map中有完整的拷贝。在二个要连接的表中，有一个很大，有一个很小，这个小表可以存放在内存中而不影响性能。三、配置项 -- 是否开启join优化 set hive.auto.convert.join=true; --表文件的大

hive sql + left join 数据缺失

02-29

- Bucketing Version 是Hive表的一个属性，用于控制如何对数据进行分区和分桶。 - Hive 3 默认的bucketing_version为2，而旧版Hive的bucketing_version为1。 - 这个属性的变化直接影响了数据的分桶方式，从而影响...

hive：使用map join解决大小表关联造成的数据倾斜

dd1296的博客

07-09

3775

什么是数据倾斜在大数据处理过程中，不怕数据大，就怕数据倾斜。数据倾斜就是在mapreduce过程中，一个或几个reduce端处理的数据量过大，明显远大于平均值，导致少数的reduce端的任务长时间无法完成，而其他reduce端又无事可做，明显的效率低下。数据倾斜的一些原因 1、关联查询时，有一个较小的表的key比较集中 key的分布不均就导致在分区时，某一个或几个分区的数量过多 2、使用group by但没有用聚合函数，导致维度过小，某值的数量过多那么我们需要在使用group by时注意一定要同

hive多个表join_Hive的三种Join方式

weixin_39574140的博客

12-20

1669

select /*+ MAPJOIN(time_dim)*/ count(1)fromstore_salesjointime_dimon (ss_sold_time_sk = t_time_sk)2) 需要做不等值join操作(a.x < b.y 或者 a.x like b.y等)这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里...

使用Hive SQL插入动态分区的Parquet表OOM异常分析

qq_43709558的博客

10-10

503

oom分析

(12)使用数据分区优化join

06-10

数据分区设计RDD的Partitioner

hive 中的map join 操作（转载）

smile6868的博客

03-14

6519

今天遇到一个Hive的问题，如下hivesql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。为了解决用户的这个问题，考虑使用mapjoin,mapjoin的原理： MAPJION会把小表全部读入内存中，在map阶段...

大数据计算服务MaxComputeSQL之MAP JOIN HINT

TPH_BETTER.的博客

12-16

1523

当对一个大表和一个或多个小表执行join操作时，可以在select语句中显式指定mapjoin Hint提示以提升查询性能。本文介绍如何通过mapjoin hint连接表。功能介绍整个JOIN过程包含Map、Shuffle和Reduce三个阶段。通常情况下，join操作在Reduce阶段执行表连接。但是mapjoin在Map阶段执行表连接，而非等到Reduce阶段才执行表连接，可以缩短大量数据传输时间，提升系统资源利用率，从而起到优化作业的作用。在对大表和一个或多个小表执行join操作时，mapjoi

HiveSql语法优化二：join算法

zmx_messi的博客

12-13

1544

SMB Map Join同Bucket Map Join一样，同样是利用两表各分桶之间的关联关系，在分桶之间进行join操作，不同的是，分桶之间的join操作的实现原理。SMB Map Join要求，参与join的表均为分桶表，且需保证分桶内的数据是有序的，且分桶字段、排序字段和关联字段为相同字段，且其中一张表的分桶数量是另外一张表分桶数量的整数倍。Bucket Map Join是对Map Join算法的改进，其打破了Map Join只适用于大表join小表的限制，可用于大表join大表的场景。

hive sql 中join引起的数据倾斜之mapjoin优化

pluck_lyang的博客

12-31

722

在dwd层关联维度表时经常会遇到数据倾斜，假如某app商店的曝光数据超百亿，在关联app维度表表时，排在前面的app肯定占了大部分数据，如抖音微信，肯定会遇到数据倾斜。这个时候该怎么解决呢？ mapjoin无疑是比较好的选择！步骤1：先建个临时表，筛选5000万以上的数据 CREATE TABLE temp_store_exposure_dm AS SELECT t1.app_id ,t2.app_name ,t2.app_category FROM ( SELECT app_...

hive中的mapjoin

yycdaizi的专栏

12-03

1万+

在Hive中，common join是很慢的，如果我们是一张大表关联多张小表，可以使用mapjoin加快速度。 mapjoin主要有以下参数： hive.auto.convert.join ：是否自动转换为mapjoin hive.mapjoin.smalltable.filesize : 小表的最大文件大小，默认为25000000，即25M hive.auto.convert.join.noc

【hive】简单介绍hive的几种join

Mrerlou的博客

08-17

1969

common join 主要是针对数据/业务逻辑的join。Map joinSkew Join是hive 针对特殊数据、场景进行的优化。则是Sql语句的优化，并且也可以应用上面的优化方案。MAP JION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。

面试集锦（二）之手写sql面试题目及map端join_20210206_大数据面试题

周星星

02-06

285

本篇是大数据面试题部分，今日内容 sql题目 map端join sql题目查询第二高的薪水编写一个 SQL 查询，获取 Employee表中第二高的薪水（Salary）。 +----+--------+ | Id | Salary | +----+--------+ | 1 | 100 | | 2 | 200 | | 3 | 300 | +----+--------+ 例如上述Employee表，SQL查询应该返回200 作为第二高的薪水...

实战经验分享：提升Hive SQL开发技能

在HiveSQL中，join操作是一个计算密集型的操作，特别是在处理大数据集时。合理地使用join，比如通过缩小join范围、选择适当的join类型、使用map join等策略，可以显著提高查询效率。在涉及多表join时，了解如何优化...