大数据面试题

冰与果汁鸽

于 2024-09-08 13:46:34 发布

阅读量810

点赞数 7

文章标签：大数据

本文链接：https://blog.csdn.net/m0_65545337/article/details/142025562

版权

1.请列出你所知道的hadoop调度器，并简要说明其工作方法

比较流行的三种调度器有：默认调度器FIFO，计算能力调度器CapacityScheduler，公平调度器Fair Scheduler

默认调度器FIFO：hadoop中默认的调度器，采用先进先出的原则

计算能力调度器CapacityScheduler：选择占用资源小，优先级高的先执行

公平调度器FairScheduler：同一队列中的作业公平共享队列中所有资源

2.请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么

NameNode: HDFS的守护进程，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理

Secondary NameNode：辅助后台程序，与NameNode进行通信，以便定期保存HDFS元数据的快照

DataNode：负责把HDFS数据块读写到本地的文件系统

JobTracker：负责分配task，并监控所有运行的task

TaskTracker：负责执行具体的task，并与JobTracker进行交互

3.Sqoop的工作原理是什么

Sqoop可以将关系型数据库的数据导入非结构化的hdfs、hive或者bbase中，也可以将hdfs中的数据导出到关系型数据库或者文本文件中

使用的是mr程序来执行任务，使用jdbc和关系型数据库进行交互

import原理：通过指定的分隔符进行数据切分，将分片传入各个map中，在map任务中在每行数据进行写入处理没有reduce。

export原理：根据要操作的表名生成一个java，并读取其元数据信息和分隔符对非结构化的数据进行匹配，多个map作业同时执行写入关系型数据库

4.谈谈对zookeeper的理解

Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题( 解决单点故障问题 )

Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化，通过监控这些数据状态的变化，从而可以达到基于数据的集群管理

5.简单说一下hadoop中mapreduce的编程模型

首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合

使用的是hadoop内置的数据类型，比如longwritable、text等

将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出

之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写hashpartitioner的getpartition方法来自定义分区规则

之后会对key进行进行sort排序，grouping分组操作将相同key的value合并分组输出，在这里可以使用自定义的数据类型，重写WritableComparator的Comparator方法来自定义排序规则，重写RawComparator的compara方法来自定义分组规则

之后进行一个combiner归约操作，其实就是一个本地段的reduce预处理，以减小后面shufle和reducer的工作量

reduce task会通过网络将各个数据收集进行reduce处理，最后将数据保存或者显示，结束整个job

6.mapreduce运行时有什么比较常见的问题

作业中大部分都完成了，但是总有几个reduce一直在运行

这是因为这几个reduce中的处理的数据要远远大于其他的reduce，可能是对键值对任务划分的不均匀造成的数据倾斜

解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处理，或者是在map端的combiner中进行数据预处理的操作

7.说一下hadoop的shuffle过程

Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了

Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce

首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？

因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可

每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来

接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序

从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序

最终在Reduce端生成一个较大的文件作为Reduce的输入

最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上

冰与果汁鸽

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
大数据面试题

比较流行的三种调度器有：默认调度器FIFO，计算能力调度器CapacityScheduler，公平调度器Fair Scheduler默认调度器FIFO：hadoop中默认的调度器，采用先进先出的原则计算能力调度器CapacityScheduler：选择占用资源小，优先级高的先执行公平调度器FairScheduler：同一队列中的作业公平共享队列中所有资源。
复制链接

扫一扫