![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 70
袁奎
好记性不如烂笔头,将好生活记录下来。
展开
-
数据倾斜优化
1.开启Map-Side聚合后,数据会现在Map端完成部分聚合工作。1.使用map join算法,join操作仅在map端就能完成,没有shuffle操作,没有reduce阶段,自然不会产生reduce端的数据倾斜。Skew-GroupBy的原理是启动两个MR任务,第一个MR按照随机数分区,将数据分散发送到Reduce,完成部分聚合,第二个MR按照分组字段分区,完成最终聚合。skew join的原理是,为倾斜的大key单独启动一个map join任务进行计算,其余key进行正常的common join。原创 2023-08-29 17:12:44 · 196 阅读 · 0 评论 -
HDFS核心理论学习记录
hdfs常考知识点原创 2023-03-08 00:36:59 · 347 阅读 · 0 评论