问题描述
MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话:移动计算而非移动数据,分而治之。
你怎么理解移动计算而不移动数据?
答:就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序,移动到有数据存储的节点上,利用多节点的CPU的并发能力,提高计算效率。
mapreduce是分为两个阶段,map阶段处理的是块文件(原始文件),计算后的结果存储到本地磁盘;reducer阶段要跨节点fetch属于自己要处理的数据,计算后的结果存储到fdfs上。(也可以存储到客户端所在的本地磁盘)怎么理解分而治之?
怎么理解输入分片这个概念?
答:分片就是Mapreduce在进行作业提交时,会预先对将要分析的原始数据进行划分处理,形成一个个等长的逻辑数据对象。也称“分片”;
Mapreduce里的什么会用到输入分片?
答:MapReduce为每一个分片构造一个单独的MapTask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录。
分片与块的区别是什么?
答:
1. 分片是逻辑数据,记录的是要处理的物理块信息而已;
2. 块是物理的,是真实存储在文件系统上的原始数据文件。520M的一个文件,分多少个块文件,有多少个分片?
答: 520/128>4 所分五个块文件合适
128 * 4 = 512 最后剩余8 分4个片合适
hdfs的块大小如何选择,请说明理由?
答:
条件1. 尽可能的减少磁盘的