算法面试必备-----大数据

最新推荐文章于 2024-05-11 21:19:38 发布

Avery123123

最新推荐文章于 2024-05-11 21:19:38 发布

阅读量578

点赞数

分类专栏：算法岗面试笔试准备

本文链接：https://blog.csdn.net/Avery123123/article/details/107691383

版权

算法面试必备-----大数据

算法面试必备-----大数据

算法面试必备-----大数据

一、Hadoop

问题：Hadoop中有哪些组件？

Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+…

1).HDFS:分布式文件存储系统

 主：namenode,secondarynamenode

 从：datanode

2).Yarn:分布式资源管理系统，用于同一管理集群中的资源（内存等）

 主：ResourceManager

 从：NodeManager

3).MapReduce:Hadoop的计算框架，用map和reduce方式实现数据的全局汇总

4).Zookeeper：分布式协调服务，用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等

主：QuorumPeerMain

从：QuorumPeerMain

5).Hbase:Hadoop下的分布式数据库，类似于NoSQL

主：HMaster,HRegionserver,Region

6).Hive:分布式数据仓库，其实说白了就是一个数据分析工具，底层用的还是MapReduce

7).Sqoop:用于将传统数据库中数据导入到hbase或者Hdfs中一个导入工具

8).Spark:基于内存的分布式处理框架

 主：Master

 从：Worker

问题：Hadoop分为三个核心部分，每个部分是什么，有什么功能？

三个核心：hdfs，mapreduce和yarn

Hadfs：分布式文件系统，mapreduce:分布式计算框架，yarn：资源调度器

功能：hdfs：由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。用于存储文件，通过目录树来定位文件

Mapreduce：采用“分而治之”的思想，来处理大规模的数据。将数据拆解成多个部分，并利用集群的多个节点同时进行数据处理，然后将各个节点得到的中间结果进行汇总，经过进一步的计算（该计算也是并行进行的），得到最终结果

问题：Hadoop的shuffle过程

一、Map端的shuffle
　　Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。
　　在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。
　　最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

二、Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。
　　首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。
　　接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。