锁屏面试题百日百刷-hadoop篇(九)

最新推荐文章于 2024-06-19 22:30:59 发布

zjlala96

最新推荐文章于 2024-06-19 22:30:59 发布

阅读量52

点赞数

分类专栏：面试题百日百刷大厂面试题文章标签： hadoop java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012838765/article/details/129016640

版权

面试题百日百刷同时被 2 个专栏收录

84 篇文章 2 订阅

订阅专栏

大厂面试题

58 篇文章 0 订阅

订阅专栏

1.给你一个1G的数据文件。分别有id,name,mark,source四个字段，按照mark分组，id排序，手写一个MapReduce?其中有几个Mapper？

在map端对mark排序，在reduce端对id分组。

@Override

public int compareTo(GroupBean o) {

int result = this.mark.compareTo(o.mark);

if (result == 0) return Integer.compare(this.id,o.id);

else

return result;

}

@Override

public int compare(WritableComparable a, WritableComparable b) {

GroupBean aBean = (GroupBean) a;

GroupBean bBean = (GroupBean) b;

int result;

if (aBean.getMark() > bBean. getMark()) { result = 1;

} else if (aBean. getMark() < bBean. getMark()) { result = -1;

} else {result = 0;

}

return result;

}

2）几个mapper

（1）1024m/128m=8块

2.你是如何解决Hadoop数据倾斜的问题的，能举个例子吗?

「性能优化」和「数据倾斜」，如果在面试前不好好准备，那就准备在面试时吃亏吧~其实掌握的多了，很多方法都有相通的地方。

1）提前在map进行combine，减少传输的数据量

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key 大量分布在不同的mapper的时候，这种方法就不是很有效了

2）数据倾斜的key 大量分布在不同的mapper

在这种情况，大致有如下几种方法：

「局部聚合加全局聚合」

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer 中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

「思想」：二次mr，第一次将key随机散列到不同 reducer 进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。

这个方法进行两次mapreduce，性能稍差

「增加Reducer，提升并行度」

JobConf.setNumReduceTasks(int)

「实现自定义分区」

根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

3.讲一讲Yarn 调度流程

1）client向RM提交应用程序，其中包括启动该应用的ApplicationMaster的必须信息，例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等

2）ResourceManager启动一个container用于运行ApplicationMaster

3）启动中的ApplicationMaster向ResourceManager注册自己，启动成功后与RM保持心跳

4）ApplicationMaster向ResourceManager发送请求,申请相应数目的container

5）申请成功的container，由ApplicationMaster进行初始化。container的启动信息初始化后，AM与对应的NodeManager通信，要求NM启动container

6）NM启动container

7）container运行期间，ApplicationMaster对container进行监控。container通过RPC协议向对应的AM汇报自己的进度和状态等信息

8）应用运行结束后，ApplicationMaster向ResourceManager注销自己，并允许属于它的container被收回

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
锁屏面试题百日百刷-hadoop篇(九)

给你一个1G的数据文件。分别有id,name,mark,source四个字段，按照mark分组，id排序，手写一个MapReduce?其中有几个Mapper？如何解决Hadoop数据倾斜的问题的，能举个例子吗讲一讲Yarn 调度流程
复制链接

扫一扫

专栏目录

zjlala96 CSDN认证博客专家 CSDN认证企业博客

码龄11年

92: 原创

10万+: 周排名

45万+: 总排名

4万+: 访问

: 等级

1283: 积分

41: 粉丝

6: 获赞

3: 评论

53: 收藏

私信

关注

热门文章

分类专栏

demo软件园 71篇
工具推荐使用 41篇
资源分享 55篇
电子书 36篇
大厂面试题 58篇
面试题百日百刷 84篇
java基础 8篇
spark 18篇
每日一题 12篇
Flink 11篇
kafka 2篇
HBase 8篇
学习路径 1篇
360度无死角学习路线 2篇
Flume 2篇
Hive 11篇
中间件 4篇
javaEE 7篇
网络编程 4篇
数据库 3篇
安卓开发 2篇

最新评论

面试题百日百刷-java基础篇(十一)
CSDN-Ada助手: 恭喜您入围持续学习7天榜单「2023-05-30」榜单, 连续学习: 7 天, 排名: 「4」, 一定要再接再厉哦, 争取拿到更好成绩, 榜单详情请看: https://bbs.csdn.net/topics/615602993 更多创作活动请看: 物联网技术正在如何影响我们的生活: https://activity.csdn.net/creatActivity?id=10421?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket AI写作助手创作测评: https://activity.csdn.net/creatActivity?id=10450?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket
每日分享(Thinphp开发的证书查询系统源码支持自适应多端PC+WAP含安装教程)
（）197: 安装教程在哪
Android核心技术之入门Hello world
我爱人工智能: 写的很详细

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。