MapReduce相关的几道面试题

最新推荐文章于 2024-09-11 09:00:00 发布

鯉鱼

最新推荐文章于 2024-09-11 09:00:00 发布

阅读量1.1k

点赞数

分类专栏： Hadoop 大数据

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

转载自微信公众号hadoop123

现有100TB的用户查询词（从搜索引擎日志中提取出来的），如何用MapReduce计算出现次数最多的K个查询词？如何对你设计的算法进行优化？考虑的优化点有：如果一个查询词出现次数非常多，产生的负载倾斜问题会不会导致你的算法性能非常低下，等等。
现有100TB的网页文档（文档库），很容易统计出每个文档中每两个词（词对）出现频率，设计一个MapReduce算法统计出现在超过10个文档中的词对，比如以下文档 I am a good man
那么词对有I am，I a，I good， I man， a man， am good ……
设计出算法之后，尝试考虑从以下几点进行优化：
（1）在Map阶段，一个Map Task可能会输出大量的临时数据，这可能会带来什么性能问题？如何对其进行优化？
（2）假设现在有一个词频表，已经统计出了文档库中每个词出现的频率，怎么利用这个词频表优化你的mapreduce程序？
（3）如果词频表非常大，内存放不下，有哪些数据结构可以节省内存？
（4）如果尝试使用各种数据结构后，词频表仍无法保存到内存中，如何进行解决该问题？
目前有很多基于MapReduce的数据挖掘库、机器学习库和图算法库，尝试基于MapReduce实现最短路径算法。
Hadoop MapReduce提供了什么机制允许一个作业的各个任务间共享只读文件？尝试描述该机制的工作原理。
请描述MapReduce中shuffle阶段的工作流程？如何优化shuffle阶段？
一个MapReduce作业的Map Task数目是如何决定的？一般情况下，在Hadoop中，一个处理文本文件的作业的Map Task是如何计算的？
什么叫数据本地性？Hadoop采用了哪些机制提高任务的数据本地性？
描述Hadoop MapReduce的容错机制。
MapReduce中Partitioner的作用是什么，哪些情况下需要自定义Parititioner？
MapReduce中Combiner的作用是什么，它一般用于哪些场景？举出一个不能使用Combiner的例子。
MapReduce中排序发生在哪几个阶段？这些排序是否可以避免，为什么？
编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？
如何使用MapReduce实现两表join，可考虑以下几种情况：（1）一个表大，一个表小（可放到内存中）（2）两个表均是大表
如何使用MapReduce实现全排序（即数据全局key有序）？你给出的算法可能要求仅启动一个Reduce Task，那么如何对算法改进，可以同时启动多个Reduce Task提高排序效率。
如何对MapReduce作业进行调优（可从参数配置、程序编写等角度说明）
电话面试，请描述MapReduce的设计架构。
如果对MapReduce系统进行调优（可从操作系统配置、参数配置等角度说明）
Hadoop MapReduce中资源管理模型是怎样的，有什么缺点，如何改进？
解释什么是Capacity Scheduler？
Hadoop 2.0中YARN是什么？（最近部分明年毕业的同学找工作过程遇到了关于YARN的笔试题，比如今天的EMC笔试题）
YARN和MapReduce有什么关系？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

鯉鱼 CSDN认证博客专家 CSDN认证企业博客

码龄7年

130: 原创

6万+: 周排名

99万+: 总排名

8万+: 访问

: 等级

2048: 积分

6: 粉丝

17: 获赞

7: 评论

58: 收藏

私信

关注

热门文章

分类专栏

网络 2篇
PHP 1篇
LeetCode 13篇
JavaSE 14篇
Hadoop 8篇
GitHub 1篇
Paper
数据库
算法 100篇
链表 13篇
树 16篇
栈与队列 6篇
数字 24篇
查找 9篇
回溯 3篇
动态规划 8篇
位运算 5篇
递归 1篇
排序 1篇
字符串 3篇
MySQL
OS 8篇
大数据 10篇

最新评论

和为s的数字
Deep Learning小舟: 知道了，给博主递茶，谢谢！
累加和为给定值的最长子数组长度
Wisley.Wang: 这道题用双指针的话，是不是就可以用o（1）的空间解决了，时间复杂度也是o（n）
删除链表中重复的元素
@苏SS: 有无全代码
和可被 K 整除的子数组
xylitolz: map.put(0,1);为什么要初始化
Hadoop001存储模型
如果猪会飞: 博主您好，我想请教一下，前面您说“假设一整个文件大小为100byte，按照每个块存储大小为10个字节，此时可以切割10个块”，后面又说“hdfs默认块大小是128mb，副本数为3。如果设置的话范围需在1mb~128mb”，这不是矛盾吗？？？块的最小为1mb你怎么100个字节切割成是个块？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。