Hadoop框架中Mapreduce常见问题解析

最新推荐文章于 2024-08-03 22:24:52 发布

戴着鸭舌帽上台

最新推荐文章于 2024-08-03 22:24:52 发布

阅读量684

点赞数

分类专栏： BigData_Work 文章标签： hadoop big data mysql

本文链接：https://blog.csdn.net/Dream_aju/article/details/120029725

版权

问题描述

MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话：移动计算而非移动数据，分而治之。

你怎么理解移动计算而不移动数据？

答：就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序，移动到有数据存储的节点上，利用多节点的CPU的并发能力，提高计算效率。
mapreduce是分为两个阶段，map阶段处理的是块文件（原始文件），计算后的结果存储到本地磁盘；reducer阶段要跨节点fetch属于自己要处理的数据，计算后的结果存储到fdfs上。（也可以存储到客户端所在的本地磁盘）

怎么理解分而治之？

怎么理解输入分片这个概念？

答：分片就是Mapreduce在进行作业提交时，会预先对将要分析的原始数据进行划分处理，形成一个个等长的逻辑数据对象。也称“分片”；

Mapreduce里的什么会用到输入分片？

答：MapReduce为每一个分片构造一个单独的MapTask，并由该任务来运行用户自定义的map方法，从而处理分片中的每一条记录。

分片与块的区别是什么？

答：
1. 分片是逻辑数据，记录的是要处理的物理块信息而已；
2. 块是物理的，是真实存储在文件系统上的原始数据文件。

520M的一个文件，分多少个块文件，有多少个分片？

答： 520/128>4 所分五个块文件合适
128 * 4 = 512 最后剩余8 分4个片合适

hdfs的块大小如何选择，请说明理由？

答：
条件1. 尽可能的减少磁盘的

最低0.47元/天解锁文章

戴着鸭舌帽上台

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop框架中Mapreduce常见问题解析

问题描述MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话：移动计算而非移动数据，分而治之。你怎么理解移动计算而不移动数据？答：就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序，移动到有数据存储的节点上，利用多节点的CPU的并发能力，提高计算效率。 mapreduce是分为两个阶段，map阶段处理的是块文件（原始文件），计算后的结果存储到本地磁盘；reducer阶段要跨节点fetch属于自己要处理的数据，计算后的结果存...
复制链接

扫一扫