ORC文件的stripe信息导致的数据倾斜问题

七里臭臭

已于 2024-03-24 22:17:05 修改

阅读量129

点赞数 1

文章标签： spark sql hadoop

于 2023-09-14 17:07:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aqilichouchou/article/details/132884297

版权

文章讲述了在一个SparkonHiveonYARN环境中，由于宽表和unionall操作引发的Hiveorc小文件合并问题，导致读取速度慢。解决方法包括调整`hive.merge.file.stripe.level`参数和覆写历史分区，以减少stripe数量，虽然可能影响合并阶段速度，但大幅提升了读取性能。

摘要由CSDN通过智能技术生成

环境

cdh6.3.2

hive2.1

场景

最近发现有一个简单的spark on hive on yarn的 hql逻辑的map阶段需要跑很久很久,

27MB,有shuffle 10MB的情况下, 居然要执行七个多小时

原因

根据yarn界面定位到这张读的很慢的表, 并且去9870页面观察这张表的分区和数据分布情况还有这张表的生成sql情况, 发现这张表其实是一张宽表,只是比较小,但是由于是宽表并且hql逻辑中有很多unionall联合小表的操作, 导致这个表在触发hive的orc小文件合并的时候, 最后生成的这个27M的文件块内,有茫茫多的stripe信息 ,搜索文件内的stripe信息发现几十行数据就会有一个stripe

本质原因:

一般单个文件根据spark /yarn的默认分区并行度,比如我们集群是1099个分区,那么reduce后这个orc文件内应该是1099个stripe信息

单个文件存在大量stripe信息,导致每个文件读取很慢

处理方案

1.调整全局参数

hive.merge.file.stripe.level=false

2.并对历史分区进行自己覆写自己

这个很重要

inserverwrite tb (分区)
select * from tb自己 
where 分区

作用:

解决当前orc文件下小文件合并导致文件读取速度异常,并设置全局生效

后果:

加工节点的orc spark merge file阶段速度会有下降,但是大多数情况下生成的orc文件的读取速度会有明显提升

即使读全表也会很快

PS

新增了orc合并参数以后,就不会根据orc文件进行合并,而是基于file大小进行合并,这一点需要注意,

一般会遵循1W行一条

目前表的stripe看起来是10-100条一个

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
ORC文件的stripe信息导致的数据倾斜问题

cdh6.3.2hive2.1最近发现有一个简单的spark on hive on yarn的 hql逻辑的map阶段需要跑很久很久,27MB,有shuffle 10MB的情况下, 居然要执行七个多小时根据yarn界面定位到这张读的很慢的表, 并且去9870页面观察这张表的分区和数据分布情况还有这张表的生成sql情况, 发现这张表其实是一张宽表,只是比较小,但是由于是宽表并且hql逻辑中有很多unionall联合小表的操作, 导致这个表在触发hive的orc小文件合并的时候, 最后生成的这个27M的文件块
复制链接

扫一扫

七里臭臭 CSDN认证博客专家 CSDN认证企业博客

码龄4年

10: 原创

60万+: 周排名

31万+: 总排名

3692: 访问

: 等级

144: 积分

2: 粉丝

2: 获赞

4: 评论

7: 收藏

私信

关注

热门文章

最新评论

ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 可以考虑使用minimal合并级别。 minimal合并级别在进行ORC文件合并时只会合并必要的stripe，即当需要合并的stripe数量超过了一个block大小（由hive.merge.smallfiles.avgsize参数控制）时才会进行合并。这样可以尽量保持较小的stripe大小
ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 6.3.2的stripe相关大小参数和等级好像都是固定的不可更改,因为用的orc版本是定死的,除非...升级orc版本否则还是桶表或者用其他工具来加工一下这个orc文件吧
ORC文件的stripe信息导致的数据倾斜问题
七里臭臭: 而且不同的数据集和查询模式可能会导致不同的行数据量，从而影响每个stripe的大小,因为每一行数据不一样,有的是很宽的表, 但是hive.merge.file.stripe.level这个参数好像可以研究一下,好像有四种策略呢,禁用/最小化/正常/积极合并
ORC文件的stripe信息导致的数据倾斜问题
bulbcat: hello ，看着大佬跟我使用的几乎一样的技术栈，cdh 6.3.2 。hive on spark 。我也用了同样的方法处理了 stripe 过多的问题。大佬知道怎么合理控制 stripe 数目么？除了小文件merge出来的大 stripe , 基于 file merge 的大表也会出单个文件大量 stripe 的问题导致读数慢，这个大佬有合理的参数可以解决这个问题么？这个 10000 行一个 stripe 这个配置看着在我的环境上大概是 5000-20000 这个区间并不是一个稳定值
Hive 相关的reduce参数设置
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/616993553。

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。