记一次批量型数据倾斜的hive优化

最新推荐文章于 2023-04-11 08:30:00 发布

zhangztSky

最新推荐文章于 2023-04-11 08:30:00 发布

阅读量172

点赞数

分类专栏：数据仓库 hive 大数据

本文链接：https://blog.csdn.net/qq_38574975/article/details/105186217

版权

hive 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

大数据

6 篇文章 0 订阅

订阅专栏

数据仓库

4 篇文章 0 订阅

订阅专栏

问题概述

CREATE TABLE  answer as 
select * from a 
left join b 
on a.model_id=b.model_id 
left join c 
on a.model_id=c.model_id；

其中表a四千万行，b,c仅仅百万行，但是这个结果的reduce阶段却跑了12个小时，原本2GB的数据，生成了2T数据，150亿行数据。这是为什么呢？？？

分析

理解这个问题前游戏要了解一下hive join 的mr 原理join原理浅析

那怎们确定是数据倾斜呢，其实你看每个reduce的运行时间即可得知。
然后进一步的我研究了数据源 a,b,c关联键 model_id的特征
首先求一下每个model_id的个数，并排个序

由此可见关联键重复严重，并且三张表的关联键都有不同程度的重复，然后在根据mr的join的原理，你就很容易理解为啥这么慢，为啥2G生成2T。

在这里插入图片描述

问题解决

因为是reduce 的压力大，

所以增加reduce的个数，
去重distinct，因为reduce慢的原因无非就是疯狂的写磁盘（因为生成了151亿条数据），而这些个本身就有很多的重复，所以去重后就会减少磁盘io
join前对model_id去重。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhangztSky

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dell r720重做raid_Dell R720上的系统安装问题的解决办法（关于RAID建立磁盘阵列的技术）...

weixin_39752800的博客

12-22

730

一．RAID定义RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出，最初是为了组合小的廉价磁盘来代替大的昂贵磁盘，同时希望磁盘失效时不会使对数据的访问受损失而开发出一定水平的数据保护技术。RAID就是一种由多块廉价磁盘构成的冗余阵列，在操作系统下是作为一个独立的大型存储设备出现。RAID可以充分发挥出多块硬...

Hive/MaxCompute SQL性能优化(三)：数据倾斜优化实战

王义凯的博客

01-10

3291

前面介绍了如何定位数据倾斜，本文介绍如果遇到各种数据倾斜的情况该怎样优化代码。

参与评论您还未登录，请先登录后发表或查看评论

RAID0-5.pdf

10-04

RAID0-5.pdf

RAID0、RAID1及RAID5的区别详解

C_0919的博客

12-14

605

1、RAID0 RAID0技术把多块(至少两块)物理硬盘设备通过软件或硬件的方式串联在一起，组成一个大的卷组，并将数据依次写入到各个物理硬盘中。这样，在最理想的情况下，硬盘设备的读写性能会提升数倍，但是若任意一块硬盘发生故障将导致整个系统的数据都受到破坏。虽然，RAID0技术能够有效的提升硬盘数据的吞吐速度，但是不具备数据备份和错误修复能力。如下图，数据被分别写入到不同的硬盘设备中，即disk1和disk2硬盘设备会被分别保存数据资料，最终实现提升读取、写入速度的效果。 2、RAID1 尽管RAI

通俗易懂解释raid0和raid5_讲讲这几个月自己对RAID5系统的理解

weixin_39724287的博客

12-20

621

本人负责公司的视频监控存储RAID5系统，刚接手的时候对这方面一窍不通，由于日常对存储系统及服务器不会进行排查和问题处理，所以当硬盘发生故障导致磁盘组出现降级甚至不可访问，致使公司的视频数据发生不可挽回的损失！那段时间几乎天天晚上做梦梦到公司存储硬盘又损坏、数据丢失，天天提心吊胆！也受到领导的批评、公司的考核以及同事的有意无意的嘲笑!从那时候起我开始天天努力脑补RAID系统，开始着手了解公司存储系...

[转]用最通俗的方式来理解几种常用的RAID磁盘阵列级别

\\\布谷鸟///的专栏

02-26

1719

[转]用最通俗的方式来理解几种常用的RAID磁盘阵列级别我发现周围不少人在学习和理解RAID磁盘阵列的原理时，找了很多专业的资料来看，但是因为动手的机会比较少，因此看完以后还是似懂非懂，真正遇到实际的方案设计的时候，还是拿不定主意。因此，我结合自己在过去几年中积累的实际项目经验，在这里通过最通俗的方式，来谈一谈我对几种常用的RAID磁盘阵列级别的理解，如有错误与不恰当之处，欢迎拍砖。 R

利用Hive进行复杂用户行为大数据分析及优化案例

02-20

02_Hive表批量加载数据的脚本实现（一） 03_Hive表批量加载数据的脚本实现（二） 04_HIve中的case when、cast及unix_timestamp的使用 05_复杂日志分析-需求分析 06_复杂日志分析-需求字段讲解及过滤 07_复杂日志分析...

Hive表插入数据前的优化，分区优化、分桶优化、数据倾斜优化、并行优化等等...

奇迹虎虎的博客

02-17

495

Hive表插入数据前的优化，分区优化、分桶优化、数据倾斜优化、并行优化等等...

mysql数据抽取，自动生成hive建表语句

03-11

根据业务需求，可能还需要对Hive表进行性能优化，比如设置合适的压缩编码、分桶或倾斜键等。这个过程不仅可以节省手动编写建表语句的时间，还可以减少因人为错误导致的问题。对于大型数据仓库项目，这样的自动化...

Hive系列（三）—— 性能优化及数据倾斜

BigData_Hubert的博客

08-28

9854

在Hive使用中，数据倾斜以及解决方案，是老生常谈的问题，一直没有时间去全面的了解；最近花了一段时间，总结了hive性能优化，尤其是数据倾斜的优化如下。希望能对Hive感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。

RAID 0-5介绍

04-12

RAID1--5技术详解;磁盘阵列RAID技术详解<br>RAID是英文Redundant Array of Inexpensive Disks的缩写，中文简称为磁盘阵列。其实，从RAID的英文原意中，我们已经能够多少知道RAID就是一种由多块廉价磁盘构成的冗余阵列。虽然RAID包含多块磁盘，但是在操作系统下是作为一个独立的大型存储设备出现。RAID技术分为几种不同的等级，分别可以提供不同的速度，安全性和性价比。

比较通俗的RAID图解

mituan1234567的专栏

11-21

760

http://hi.baidu.com/lkpark2007/item/eb7a9640586941f7dc0f6cba RAID是英文Redundant Array of Independent Disks的缩写，翻译成中文意思是“独立磁盘冗余阵列”，有时也简称磁盘阵列（Disk Array）。【注：磁盘阵列（Disk Array）是由一个硬盘控制器来控制多个硬盘的相互连接，使多个硬盘的读

用最通俗的方式来理解几种常用的RAID磁盘阵列级

weixin_34378767的博客

05-26

159

我发现周围不少人在学习和理解RAID磁盘阵列的原理时，找了很多专业的资料来看，但是因为动手的机会比较少，因此看完以后还是似懂非懂，真正遇到实际的方案设计的时候，还是拿不定主意。因此，我结合自己在过去几年中积累的实际项目经验，在这里通过最通俗的方式，来谈一谈我对几种常用的RAID磁盘阵列级别的理解，如有错误与不恰当之处，欢迎拍砖。 RAID0是把两块物理盘组合成一块...

Raid 的简单理解

qq_39527601的博客

08-08

370

独立冗余磁盘阵列RAID（Redundant Array of Independent Dist），最初是为了组合小的廉价磁盘来代替大的昂贵磁盘，同时希望磁盘失效时不会对数据的访问受损失而开发出的一定具有水平的数据保护。RAID就是提高存储性能、提高数据安全的技术。 RAID的几种工作方式： RAID 0（又称Stripe或Striping） RAID 0将多块磁盘连接成一个容量更大的硬盘群，...

raid什么？通俗简单讲述类型

quxuegang的博客

04-27

377

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

Raid0、 Raid1、 Raid5、 Raid10的原理、特点、性能区别