hive什么情况下容易数据倾斜？如何解决？

最新推荐文章于 2023-02-10 10:34:56 发布

Mr Fmy

最新推荐文章于 2023-02-10 10:34:56 发布

阅读量319

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42908473/article/details/114498619

版权

倾斜原因：
map输出数据按key hash分配到reducer中，由于key分布不均匀、业务数据本身的特点、建表时考虑不周等原因造成reduce上的数据量差异过大。
解决方法：
1.对于key为空产生的数据倾斜可以对其赋予一个随机值。
2.参数调节：设置数据倾斜时进行负载均衡。
3.大小表join时，使用mapjoin让小的维度(1000条以下的条数)先进内存。在map端完成reduce。
4大表join大表时，把空值的key变成一个字符串加随机数，把倾斜的数据分到不同的reducer上。
5.把数据类型转换为相同的数据类型。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive什么情况下容易数据倾斜？如何解决？

倾斜原因：map输出数据按key hash分配到reducer中，由于key分布不均匀、业务数据本身的特点、建表时考虑不周等原因造成reduce上的数据量差异过大。解决方法：1.对于key为空产生的数据倾斜可以对其赋予一个随机值。2.参数调节：设置数据倾斜时进行负载均衡。3.大小表join时，使用mapjoin让小的维度(1000条以下的条数)先进内存。在map端完成reduce。4大表join大表时，把空值的key变成一个字符串加随机数，把倾斜的数据分到不同的reducer上。5.把数据类型
复制链接

扫一扫

Mr Fmy CSDN认证博客专家 CSDN认证企业博客

码龄6年

90: 原创

32万+: 周排名

78万+: 总排名

4万+: 访问

: 等级

1054: 积分

16: 粉丝

28: 获赞

14: 评论

119: 收藏

私信

关注

热门文章

分类专栏

最新评论

学习尚筹网的一个致命错误，刻骨铭心，可以当遇到的问题
starter_yo~: 九敏有这个@service还是这样500
scala需求: 每个区域的平均等客时间
月色下的悠闲: [code=java] val taixwait = source.getLines().toList.map(_.split("\t").toList).filter(_.length == 5) .groupBy(_(0)).map(x=>x._2.sortBy(_(3)).map(x=>ListBuffer(x(2),new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(x(3)).getTime,new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(x(4)).getTime))).toList .map(x=>{ for(i <- 0 until x.length - 1){ x(i)(1) = x(i)(2) x(i)(2) = x(i + 1)(1) } x.init }).flatten.groupBy(_(0)).map(x=>(x._1,x._2.map(x=>x(2).toString.toLong - x(1).toString.toLong))) .map(x=>(x._1,x._2.sum / x._2.length / 1000 / 60)) [/code]
scala需求: 每个区域的平均等客时间
Hothy: 老杜已经发现你了
hbase问题总结(校招)
kkkkkc丶: 海狗人生丸？
浩鲸科技笔试题
泰山AI: 帮助很大，拒绝白嫖，点赞评论留个在此一游

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。