Hive中数据倾斜解决实例

最新推荐文章于 2024-08-18 23:55:35 发布

Brad_Q1

最新推荐文章于 2024-08-18 23:55:35 发布

阅读量761

点赞数 1

分类专栏：大数据 hive 文章标签： hive 大数据

本文链接：https://blog.csdn.net/Brad_Q1/article/details/87639134

版权

本文介绍了在Hive中遇到数据倾斜的问题，分析了倾斜的原因并提供了两种解决方案：通过创建临时表分步计算和过滤NULL值。实验证明，理解和掌握数据业务逻辑及分布对于优化性能至关重要。

摘要由CSDN通过智能技术生成

Hive中数据倾斜的表面原因可能各种各样，但是底层都是一个Reducer的节点计算压力过大，造成某一个节点一直在运算造成的。

今天运行SQL的时候，遇到了一次，分享下（由于数据使用公司数据，表名都重新换过，数据量保持不变）

表名信息如下，假设有两张表:

tmp_user，数据量：267772
tmp_user_log,数据量：5,617,310,131

初始SQL如下：

  SELECT /*+mapjoin(a)*/b.user_type_id
,count(distinct certi_no) certi_no
  FROM tmp_user a
  JOIN tmp_user_log b
    ON a.user_id = b.user_id
GROUP BY b.user_type_id
  ;

上述逻辑就是查看不同用户类型下的身份证数量，运行结果如下

| user_type_id | certi_no   |
+--------------+------------+
| 11           | 114982     |
| 12           | 26654      |

而这段SQL运行了大约6分多钟，其中主要卡在下面
在这里插入图片描述
可以看出确实是有倾斜，那么怎么解决呢？

因为本人有点懒，遇到这种问题向来第一反应是，弄张临时表，然后临时表再去 coun

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Brad_Q1

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

(15)Hive调优——数据倾斜的解决指南

爱吃辣条的博客

02-10

3435

Hive调优——数据倾斜指南

【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收

人生所向，皆是美好

01-15

1090

文章目录

参与评论您还未登录，请先登录后发表或查看评论

Hive数据倾斜的原因以及常用解决方案

晓晓的天空

02-10

5846

Hive数据倾斜的原因以及常用解决方案

Hive千亿级数据倾斜解决方案

yuan_more的博客

04-25

3628

数据倾斜问题剖析本文首发于公众号【五分钟学大数据】 数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执行起来还是毫无压力的，这时数据倾斜对我们感知不大，只有数据达到一个量级时，一台机器应付不了这么多的数据，这时如果发生数据倾斜，那么最后就很难算出结果。所以就需

【大数据实战案例】解决由手机号缺失引发的数据倾斜，提速10倍

最新发布

明而决之

08-18

1060

本文总结一个数据倾斜的问题，该问题由 SQL 函数对手机号分组时引发，做数仓开发的同学在在业务实战过程中，或许会遇到过。先简单介绍一下什么是数据倾斜和为什么会造成数据倾斜。数据倾斜是在分布式计算系统中经常遇到的一种现象，特别是在大数据处理和分析领域。它指的是数据在被分割并分配到多个计算节点上进行并行处理时，数据分布不均匀，导致某些节点处理的数据量远远大于其他节点的现象。在 MapReduce 中，数据倾斜也是比较常见的一个问题，稍不留意可能就会出现数据倾斜的问题。

数据倾斜典型例子

weixin_39031707的博客

08-26

521

如上图所示,一个task跑了20min没完,其他的1min左右就完了,典型的数据倾斜

hive 数据倾斜 实例

littlecarton的博客

05-17

1268

任务长时间执行未果 (10000+ second) 查看日志： [34m###*[Log] [TASK PING] : taskId=<111510244>, 6162 seconds[0m [34m###*[Log] [TASK PING] : taskId=<111510244>, 6163 secon...

hive 数据倾斜实际问题中总结

似水流年

10-25

3706

1.数据倾斜原因 a.大表（2.8G）与小表关联（580K） b.大表（2.8G）与大表（3.0G）关联首先谈论大表与小表的关联导致数据倾斜问题实例如下：大表数据格式：小表数据格式：关联语句 hive>select * from report_tour_spot_detail s join report_tour_msg_detail r

【Hive数据倾斜解决方案】：独家技巧揭秘与调整策略

Hive数据倾斜现象解读在大数据处理领域，数据倾斜是常见且具有挑战性的难题。特别是在使用Hive进行数据分析时，数据倾斜问题往往会导致任务执行效率大幅下降。数据倾斜指的是在分布式计算过程中，数据量在各个...

Hive优化实战：数据倾斜与解决策略

Hive优化实战分享是一系列针对Hive在实际工作中遇到的问题进行深入剖析和解决方案的实践分享。主要关注以下几个方面： ...通过以上实例，开发者可以学习如何有效地应对Hive中的数据倾斜问题，提升数据处理的效率。

Hive优化 + 数据倾斜 +典型案例

qq_32736999的博客

01-21

716

优化 1、Fetch抓取 hive.fetch.task.conversion 设置成 more 执行一些limit，select 单个字段不会跑mr程序 2、本地模式 hive.exec.mode.local.auto 的值为 true 3、表的优化 3.1、老版本hive，把数据小的表放在join的左边，新版本已经优化了这个方法，放在join左边跟右边没有区别了， 3.2、空ke...

Hive脚本数据倾斜案例总结分享

zhangliushi的博客

03-25

219

脚本中含有多个左联结操作，可以先根据过滤条件把右表做成临时表再左联结临时表获取数据，关联时利用map join，调整小表大小限制将小表加载进内存运行，不相关联的临时表也可以利用并行参数提高性能。

hive数据倾斜及处理案例

80工龄程序员

08-05

1130

什么是数据倾斜 数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节点的reduce阶段任务执行完成，但是这种节点的数据处理任务还没有执行完成。 数据倾斜的现象当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。 hive数据倾斜的原因 1.空值产生的数据倾斜 2.不同数据类型关联产生的数据倾斜 3.

Hive开发造成数据倾斜案例

ytp552200ytp的博客

02-25

482

1.Hive数据倾斜优化分为哪两类？2.Hive开发中，为何会出现倾斜？3.Hive倾斜本文有哪些解决方案？实际搞过离线数据处理的同学都知道，Hive SQL 的各种优化方法都是和数据倾斜密切相关的，所以我会先来聊一聊 “「数据倾斜」” 的基本概念，然后再在此基础上为大家介绍各种场景下的 Hive 优化方案。Hive 的优化分为「join 相关的优化」和「join 无关的优化」。从项目实际来说， join 相关的优化其实占据了 Hive 优化的大部分内容，而 join 相关的优化又分为 mapjoi

hive join 数据倾斜 真实案例

热门推荐

bitcarmanlee的博客

06-16

1万+

hive或者MR处理数据，不怕数据量大，就怕倾斜。本博主就遇到了一个真实案例，特意记录下来，有需要的同学可以参考1.查了5个小时还没结束的sql语句set mapred.reduce.tasks = 30; insert overwrite directory 'xxx' select cus.idA,cus.name,addr.bb from tableA as cus join tableB a

hive的数据倾斜

franklyna的博客

07-31

157

数据倾斜 在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如...

Hive数据倾斜

旧时明月

10-15

344

数据倾斜场景：少数key的数据量过于集中：由于聚合函数的操作造成 jion类的倾斜处理倾斜：提前将倾斜的数据处理掉提高并行度，多分区多task 对Group的聚合分段聚合局部整合对key随机打散将reduce端的聚合提前到map端

MapReduce编程小案例.11th—数据倾斜场景part2

RobertDowneyLm的博客

05-16

2164

MapReduce编程小案例.11th—数据倾斜场景数据：a a a a a a b b b a a aa a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g j 需求：需要做wordcount但是，会有一个问题存在：a特别多，负责处理a这个单词数据的reduce worker就会很累（负载不均衡，过大）思考：如何处理...

Hive 数据倾斜问题定位排查及解决(实际案例)

yumingzhu1的博客

08-05

2567

多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论，直接以例子来实践，排查是否出现了数据倾斜，具体是哪段代码导致的倾斜，怎么解决这段代码的倾斜。当执行过程中任务卡在 99%，大概率是出现了数据倾斜，但是通常我们的 SQL 很大，需要判断出是哪段代码导致的倾斜，才能利于我们解决倾斜。通过下面这个非常简单的例子来看下如何定位产生数据倾斜的代码。表结构描述先来了解下这些表中我