Hadoop框架中Mapreduce常见问题解析

问题描述

MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话:移动计算而非移动数据,分而治之。

你怎么理解移动计算而不移动数据?

答:就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序,移动到有数据存储的节点上,利用多节点的CPU的并发能力,提高计算效率。
    mapreduce是分为两个阶段,map阶段处理的是块文件(原始文件),计算后的结果存储到本地磁盘;reducer阶段要跨节点fetch属于自己要处理的数据,计算后的结果存储到fdfs上。(也可以存储到客户端所在的本地磁盘)

怎么理解分而治之?

怎么理解输入分片这个概念?

答:分片就是Mapreduce在进行作业提交时,会预先对将要分析的原始数据进行划分处理,形成一个个等长的逻辑数据对象。也称“分片”;

Mapreduce里的什么会用到输入分片?

答:MapReduce为每一个分片构造一个单独的MapTask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录。

分片与块的区别是什么?

答:
1. 分片是逻辑数据,记录的是要处理的物理块信息而已;
2. 块是物理的,是真实存储在文件系统上的原始数据文件。

520M的一个文件,分多少个块文件,有多少个分片?

答: 520/128>4 所分五个块文件合适
    128 * 4 = 512 最后剩余8 分4个片合适

hdfs的块大小如何选择,请说明理由?

答:
条件1. 尽可能的减少磁盘的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值