Spark 和hadoop的一些面试题2（准备）

最新推荐文章于 2024-07-28 21:46:50 发布

冥想者-定

最新推荐文章于 2024-07-28 21:46:50 发布

阅读量7.1k

点赞数 2

分类专栏：大数据面试题

大数据面试题专栏收录该内容

28 篇文章 1 订阅

订阅专栏

1、

map的数量是什么决定的，

reduce的数量是什么决定的

mapreduce的中间发生了什么 http://langyu.iteye.com/blog/992916

请用实例举例

1、map的数量怎么决定：

splitSize = max (minSize, min(goalSize, dfs.block.size))

http://blog.csdn.net/strongerbit/article/details/7440111

第一种情况：

3.1 减小 Mapper数量

3.1.1 输入文件size巨大，但不是小文件

增大 mapred.min.split.size 的值

3.1.2 输入文件数量巨大，且都是小文件

CombineFileInputFormat 使用这个类

3.2 增加 Mapper数量

即减小blockSize或者减小mapred.min.split.size的值。

2、reduce的数量。

默认值是1。

3、map和reduce之间发生了什么？

shuufle的过程

map端

1、整个流程我分了四步。简单些可以这样说，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据。

reduce端

2、1. Copy过程

2. Merge阶段

3. Reducer的输入文件

3、说出hadoop需要改进的地方，并且提出建议

1、map reduce两个阶段都产生的临时数据都需要写入磁盘，然后在从磁盘读取数据，增加了磁盘的io性能，导致任务执行缓慢

对于可以装入内存的数据，不需要写入磁盘了，直接从内存进行处理

2、默认mapreduce是对key进行排序的，而有些任务是不需要排序这个要求的，影响任务的速度

对于不需要排序的任务，可以进行不排序。

3、不适合事务/单一请求处理

4、. 不能随即读取

5、以蛮力代替索引

6、 1、数据必须先存储，才能运算。

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。