Hadoop面试题 MapReduce篇

什么是MapReduce?
它是一种框架或编程模型,用于使用分布式编程在计算机集群上处理大型数据集。
 

什么是“Map”和“Reduce”?
“Maps”和“Reduces”是在 HDFS 中解决查询的两个阶段。'Map'负责从输入位置读取数据,并根据输入类型生成一个键值对,即本地机器的中间输出。'Reducer'负责处理从输入位置接收到的中间输出映射器并生成最终输出。
 

Map映射器的四个基本参数是什么?
映射器的四个基本参数是 LongWritable、text、text 和 IntWritable。前两个代表输入参数,后两个代表中间输出参数。
 

Reducer的四个基本参数是什么?
一个reducer的四个基本参数是Text、IntWritable、Text、IntWritable,前两个代表中间输出参数,后两个代表最终输出参数。
 

Master和输出类是做什么的?
Master 被定义为更新 Master 或作业跟踪器,输出类被定义为将数据写入输出位置。
 

默认情况下 MapReduce 中的输入类型/格式是什么?
默认情况下,MapReduce 中的类型输入类型是“文本”。
 

是否必须在 MapReduce 中设置输入和输出类型/格式?
不,在 MapReduce 中设置输入和输出类型/格式不是强制性的。默认情况下,集群将输入和输出类型作为“文本”。
 

文本输入格式有什么作用?
在文本输入格式中,每一行都会创建一个行对象,即一个十六进制数。键被认为是一个行对象,值被认为是一个整行文本。这就是映射器处理数据的方式。映射器将接收作为“LongWritable”参数的“键”和作为“文本”参数的值。
 

工作 conf 类有什么作用?
MapReduce 需要在逻辑上分离运行在同一集群上的不同作业。“Job conf class”有助于进行工作级别设置,例如在真实环境中声明工作。建议作业名称应具有描述性并代表正在执行的作业类型。
 

conf.setMapper 类有什么作用?
Conf.setMapperclass 设置映射器类和所有与映射作业相关的东西,例如读取数据并从映射器中生成键值对。
 

排序和洗牌有什么作用?
排序和改组负责创建唯一键和值列表。在一个位置制作相似键称为排序。映射器的中间输出被排序并发送到reducer的过程称为混洗。
 

拆分有什么作用?
在将数据从硬盘位置传输到映射方法之前,有一个称为“拆分方法”的阶段或方法。Split 方法将一块数据从 HDFS 拉到框架中。Split 类不写任何东西,而是从块中读取数据并将其传递给映射器。默认情况下,Split 由框架处理。拆分方法等于块大小,用于将块划分为一堆拆分。
 

如果我们的商品硬件存储空间较少,我们如何更改拆分大小?
如果我们的商品硬件存储空间较少,我们可以通过编写“自定义拆分器”来更改拆分大小。Hadoop 中有一个自定义特性,可以从 main 方法中调用。
 

MapReduce 分区器有什么作用?
MapReduce 分区器确保单个键的所有值都进入同一个reducer,从而允许在reducer上均匀分布地图输出。它通过确定哪个reducer负责特定键来将映射器输出重定向到reducer。
 

如何为Hadoop的其他数据处理工具有什么不同?
在 Hadoop 中,您可以根据需要增加或减少映射器的数量,而不必担心要处理的数据量。与可用的其他数据处理工具相比

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值