Hadoop面试题 MapReduce篇

最新推荐文章于 2024-05-20 15:39:49 发布

诺冰1314

最新推荐文章于 2024-05-20 15:39:49 发布

阅读量685

点赞数

分类专栏：大数据 haoop MapReduce 文章标签： mapreduce java hadoop

本文链接：https://blog.csdn.net/nuobing1314/article/details/126318576

版权

什么是MapReduce？
它是一种框架或编程模型，用于使用分布式编程在计算机集群上处理大型数据集。

什么是“Map”和“Reduce”？
“Maps”和“Reduces”是在 HDFS 中解决查询的两个阶段。'Map'负责从输入位置读取数据，并根据输入类型生成一个键值对，即本地机器的中间输出。'Reducer'负责处理从输入位置接收到的中间输出映射器并生成最终输出。

Map映射器的四个基本参数是什么？
映射器的四个基本参数是 LongWritable、text、text 和 IntWritable。前两个代表输入参数，后两个代表中间输出参数。

Reducer的四个基本参数是什么？
一个reducer的四个基本参数是Text、IntWritable、Text、IntWritable，前两个代表中间输出参数，后两个代表最终输出参数。

Master和输出类是做什么的？
Master 被定义为更新 Master 或作业跟踪器，输出类被定义为将数据写入输出位置。

默认情况下 MapReduce 中的输入类型/格式是什么？
默认情况下，MapReduce 中的类型输入类型是“文本”。

是否必须在 MapReduce 中设置输入和输出类型/格式？
不，在 MapReduce 中设置输入和输出类型/格式不是强制性的。默认情况下，集群将输入和输出类型作为“文本”。

文本输入格式有什么作用？
在文本输入格式中，每一行都会创建一个行对象，即一个十六进制数。键被认为是一个行对象，值被认为是一个整行文本。这就是映射器处理数据的方式。映射器将接收作为“LongWritable”参数的“键”和作为“文本”参数的值。

工作 conf 类有什么作用？
MapReduce 需要在逻辑上分离运行在同一集群上的不同作业。“Job conf class”有助于进行工作级别设置，例如在真实环境中声明工作。建议作业名称应具有描述性并代表正在执行的作业类型。

conf.setMapper 类有什么作用？
Conf.setMapperclass 设置映射器类和所有与映射作业相关的东西，例如读取数据并从映射器中生成键值对。

排序和洗牌有什么作用？
排序和改组负责创建唯一键和值列表。在一个位置制作相似键称为排序。映射器的中间输出被排序并发送到reducer的过程称为混洗。

拆分有什么作用？
在将数据从硬盘位置传输到映射方法之前，有一个称为“拆分方法”的阶段或方法。Split 方法将一块数据从 HDFS 拉到框架中。Split 类不写任何东西，而是从块中读取数据并将其传递给映射器。默认情况下，Split 由框架处理。拆分方法等于块大小，用于将块划分为一堆拆分。

如果我们的商品硬件存储空间较少，我们如何更改拆分大小？
如果我们的商品硬件存储空间较少，我们可以通过编写“自定义拆分器”来更改拆分大小。Hadoop 中有一个自定义特性，可以从 main 方法中调用。

MapReduce 分区器有什么作用？
MapReduce 分区器确保单个键的所有值都进入同一个reducer，从而允许在reducer上均匀分布地图输出。它通过确定哪个reducer负责特定键来将映射器输出重定向到reducer。

如何为Hadoop的其他数据处理工具有什么不同？
在 Hadoop 中，您可以根据需要增加或减少映射器的数量，而不必担心要处理的数据量。与可用的其他数据处理工具相比

关注

专栏目录