- 现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致你的算法性能非常低下,等等。
- 现有100TB的网页文档(文档库),很容易统计出每个文档中每两个词(词对)出现频率,设计一个MapReduce算法统计出现在超过10个文档中的词对,比如以下文档 I am a good man
那么词对有I am,I a,I good, I man, a man, am good ……
设计出算法之后,尝试考虑从以下几点进行优化:
(1)在Map阶段,一个Map Task可能会输出大量的临时数据,这可能会带来什么性能问题?如何对其进行优化?
(2)假设现在有一个词频表,已经统计出了文档库中每个词出现的频率,怎么利用这个词频表优化你的mapreduce程序?
(3)如果词频表非常大,内存放不下,有哪些数据结构可以节省内存?
(4)如果尝试使用各种数据结构后,词频表仍无法保存到内存中,如何进行解决该问题? - 目前有很多基于MapReduce的数据挖掘库、机器学习库和图算法库,尝试基于MapReduce实现最短路径算法。
- Hadoop MapReduce提供了什么机制允许一个作业的各个任务间共享只读文件?尝试描述该机制的工作原理。
- 请描述MapReduce中shuffle阶段的工作流程?如何优化shuffle阶段?
- 一个MapReduce作业的Map Task数目是如何决定的?一般情况下,在Hadoop中,一个处理文本文件的作业的Map Task是如何计算的?
- 什么叫数据本地性?Hadoop采用了哪些机制提高任务的数据本地性?
- 描述Hadoop MapReduce的容错机制。
- MapReduce中Partitioner的作用是什么,哪些情况下需要自定义Parititioner?
- MapReduce中Combiner的作用是什么,它一般用于哪些场景?举出一个不能使用Combiner的例子。
- MapReduce中排序发生在哪几个阶段?这些排序是否可以避免,为什么?
- 编写MapReduce作业时,如何做到在Reduce阶段,先对key排序,再对value排序?
- 如何使用MapReduce实现两表join,可考虑以下几种情况:(1)一个表大,一个表小(可放到内存中) (2)两个表均是大表
- 如何使用MapReduce实现全排序(即数据全局key有序)? 你给出的算法可能要求仅启动一个Reduce Task,那么如何对算法改进,可以同时启动多个Reduce Task提高排序效率。
- 如何对MapReduce作业进行调优(可从参数配置、程序编写等角度说明)
- 电话面试,请描述MapReduce的设计架构。
- 如果对MapReduce系统进行调优(可从操作系统配置、参数配置等角度说明)
- Hadoop MapReduce中资源管理模型是怎样的,有什么缺点,如何改进?
- 解释什么是Capacity Scheduler?
- Hadoop 2.0中YARN是什么?(最近部分明年毕业的同学找工作过程遇到了关于YARN的笔试题,比如今天的EMC笔试题)
- YARN和MapReduce有什么关系?
MapReduce相关的几道面试题
最新推荐文章于 2024-09-11 09:00:00 发布