HIVESQL数据倾斜干货

最新推荐文章于 2024-04-24 09:19:47 发布

txs小山

最新推荐文章于 2024-04-24 09:19:47 发布

阅读量505

点赞数

分类专栏： HIVE数据倾斜文章标签：大数据

本文链接：https://blog.csdn.net/qq_43141232/article/details/107000436

版权

reducejoin数据倾斜就是大量数据经过hash后汇集到一个reduce 数据倾斜的几种常见场景：

1.distinct
2.group by
3.reducejoin
4.动态分区

1可以转换到2,2可以加参数就可以解决，原理在于预处理
参数：set hive.groupby.skewindata=true; --如果是group by过程出现倾斜应该设置为true，这种方法会启动两个job，第一个job会在key前面添加一个随机数，将数据散列到reduce中，第二个job就是将key前面的随机数去掉进行聚合。

对于常见的情况3，是发生在关联处(比如on a.id=b.id)，处理措施如下：

（首先考虑下数据取数范围、过滤条件，尽早过滤数据）

先查看a.id的数据量分布情况，

select id,count(1) as num from a group by id order by num desc

A：若是发现有大量null情况，就赋随机值处理

on (nvl(a.id,concat('HIVE_',rand())=b.id)
这样随机值就会打散reduce分布的数量，效果明显，原本要1小时的可以在1min内跑完

B：若是a.id的值有业务含义，此时就不能草率赋随机值，此时应该查看维表b的数据量情况，若是一张小表，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

txs小山

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

(15)Hive调优——数据倾斜的解决指南

爱吃辣条的博客

02-10

3265

Hive调优——数据倾斜指南

HIVE SQL数据倾斜情况以及解决办法

xw514124202的博客

06-30

4237

如何查看历史所有数据倾斜的任务参考之前的博客获取YARN上执行时间最长的JOB列表，并查看是否存在数据倾斜 1. JOIN 数据倾斜 1.1 空值问题 select t1.id from table_a t1 left join table_b t2 on t1.id = t2.id 如果 t1.id 存在过多的NULL值，那么可能会造成数据倾斜 解决办法如下（将NULL赋随机值） ...

2 条评论您还未登录，请先登录后发表或查看评论

Hive SQL数据倾斜及优化

weixin_33895516的博客

09-19

249

2019独角兽企业重金招聘Python工程师标准>>> ...

Hive sql数据倾斜及性能优化

qq_66563605的博客

07-21

848

hive数据倾斜

30分钟掌握 Hive SQL 优化（解决数据倾斜）

未来在这儿的专栏

02-07

4063

如果joinkey有集中的空值热点值，这些空值会聚集到少数个分区中，导致长尾问题。

hive spark sql 优化干货篇

weixin_43947279的博客

03-22

791

干货奉上~ 多多收藏多多转发参数优化 ## 开启动态分区 set hive.exec.dynamic.partition.mode=nonstrict; ## 开启动态分区 set hive.exec.dynamic.partition=true; ## 分区数 set hive.exec.max.dynamic.partitions = 1000; ## 无关子查询可以并行 set hive.exec.parallel = true ; ## 如果是小表，自动选择Mapjoin： set hi

漫谈千亿级数据优化实践：数据倾斜（纯干货）

木东居士

04-23

4199

0x00 前言 数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明：话题比较大，技术要求也比较高，笔者尽最大的能力来写出自己的理解，写的不对和不好的地方大家一起交流。有些例子不是特别严谨，一

MapReduce、Hive、Spark中数据倾斜问题解决归纳总结

lzw2016的博客

04-13

1482

数据倾斜是什么总的来说，你集群运行时发现MR或者Hive卡在99%不动时，或者Spark运行时出现OOM异常（OutOfMemoryError），或者成功执行但就是耗时过久时，既要考虑是否出现了数据倾斜。数据倾斜就是某些key对应的数据分化不均，导致部分reduce处理数据量过大，以至于其他reduce都执行完了它还在运行。查看web UI、日志文件：看是否出现map和reduce任务执行...

HiveSQL优化

weixin_37944880的博客

01-28

751

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾 Hadoop应该是当前最流行的大数据处理工具了（没有之一的那种），单独写MapReduce任务的应该不多了，主要还是用的Hive SQL，所以如何让HQL跑的又快又稳是非常重要的。执行SQL前首先，说SQL之前，可以在Hive表上做文章，比如： 1.加分区这个应该是最常用的了，把数据分别存到各个partition...

Hive数据倾斜

joananjin的博客

04-19

695

一、数据倾斜产生原因1.操作join一个表很小，但是key集中；分发到某一个或者几个Reduce上的数据远高于平均值。大表与大表，但是字段的空值很多；这些空值都由一个reduce进行操作，速度非常的慢。group by数据维度非常的小，某值的数据非常多；处理某值的reduce非常耗时。count distinct某特殊值多；处理此特殊值的reduce非常的耗时。2.原因（1）key值分布不均匀。（...

Hive sql 常见数据倾斜(类型不匹配、复杂join条件)的分析解决

石榴姐yyds

06-10

1158

本篇以hive sql解析器来讨论问题，spark sql 的处理方法类似，大家可自行测试。本篇不分析各种会造成数据倾斜的原因，数据倾斜形成的原因也只是简单提及。本篇主要分析在sql中进行join操作时，会造成数据倾斜的常见两大原因，以及解决方法。我认为这两种情况，在工作中出现的几率较高，所以单独拿出来讨论。 数据倾斜造成的原因（懂的可以跳过不看）：这个问题简单来说，就是分布式处理中，每个节点处理的数据量差距较大，而导致单节点负担过重，处理时间过长，而拖慢整个作业的执行时间。在hive中，常见的处

hive数据倾斜（超详细）

wind96的博客

11-04

9289

说到hive的数据倾斜，可能有的小伙伴还不了解什么是数据倾斜，所以咱们这一次就从hive数据倾斜的表现、hive数据倾斜发生的原因、hive数据倾斜的解决方案这三个方面来聊一聊hive的数据倾斜。

hive 数据倾斜处理

2301_76522810的博客

04-09

423

2join时：空key过多，或者相同key过多如果是异常数据就过滤，join前先过滤不是异常数据null值分配随机的key值。1join时：首先是大表关联小表，容易发生数据倾斜一个大表和一个小表进行join操作时。6group by发生的数据倾斜group by引起的倾斜主要是输入数据行按照group by列分布不均匀引起的。二、业务问题或者业务数据本身的问题，某些数据比较集中如按日期分区后，某一段日期数据量过大。5join时：大表联接大表两个大表联查，分桶优化。hive数据倾斜解决方案。

hive数据倾斜参数设置

qq_43246731的博客

03-30

1815

hive数据倾斜参数设置１、join的key值发生倾斜，key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key 如： select userid,name from user_info a join( select case when userid is null then cast(rand(47)*100000 as int) else userid from us...

Hive中的数据倾斜

andyguan01_2的博客

03-29

4902

列举Hive中出现数据倾斜的几种情况：一、没开Map端聚合产生的计算不均衡例如有一张客户表customer，里面存有客户ID（cust_id）和性别（gender），男女各1亿条记录，cust_id没有重复。现在要按性别分组统计记录数： select gender, count(1) from customer group by gender; 没开Map端聚合的数据处理流程如下： ...

hive sql 优化 数据倾斜

weixin_34112900的博客

05-13

此脚本运行速度慢，主要是reduce端数据倾斜导致的，了解到dw.fct_traffic_navpage_path_detl表是用来收集用户点击数据的，那么最终购物车和下单的点击肯定极少，所以此表ordr_code字段为空和cart_prod_id字段为NULL的数据量极大，如下所示：select ordr_code,count(*) as a from dw.fct_tr...

Hive 数据倾斜