大数据之Hadoop面试常问

最新推荐文章于 2024-10-02 22:56:59 发布

厉害了我的国！辉哥哥～

最新推荐文章于 2024-10-02 22:56:59 发布

阅读量44

点赞数

文章标签：大数据 hadoop 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44586884/article/details/132109522

版权

大数据之Hadoop面试常问

面试题
- Hadoop中数据倾斜
- 数据倾斜解决办法

面试题

Hadoop中数据倾斜

数据倾斜是如何产生的？

hive.groupby.skewindata 变量，这个变量是用于控制负载均衡的。当数据出现倾斜时，如果该变量设置成为true，那么hive 会自动进行负载均衡。
map join 方式
count distinct 的操作,先转成group，再count
hive.groupby.skewindata=true
left semi join 的使用
设置map端输出，中间结果压缩

数据倾斜解决办法

提前在map进行combine，减少传输的数据量
在mapper加上combine相当于提前reduce，既把一个mapper中相同key进行了聚合，减少shuffle过程中传输的数据量，以及reduce端的计算量。
缺点：如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。
局部聚合加全局聚合
缺点：二次mr，第一次将key随机散列到不同reduce进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。
这个方法进行两次MapReduce，性能稍差。
增加reduce，提升并行度
实现自定义分区

厉害了我的国！辉哥哥～

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

厉害了我的国！辉哥哥～

博客等级

码龄6年

2
原创

0
点赞

0
收藏

2
粉丝

关注

私信

热门文章

分类专栏

笔记

最新评论

大数据之Hadoop面试常问
CSDN-Ada助手: 非常棒的博文！你真的很好地总结了大数据面试中常见的问题，特别是关于数据倾斜的部分。我鼓励你继续写作，分享更多关于Hadoop的面试经验和技巧。除了数据倾斜，还有一些与Hadoop相关的扩展知识和技能值得探索。比如，你可以深入了解Hadoop的高可用性和容错性，学习如何配置和优化Hadoop集群，以及如何处理大规模数据的并行计算和分布式存储。此外，你还可以了解一些与Hadoop生态系统相关的工具和技术，如Hive、Spark、HBase等。希望你能在未来的博文中继续分享这些有趣的话题，我期待着你的下一篇文章！请继续保持谦虚和努力！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

大数据之Hadoop

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。