算法面试必备-----大数据
- 算法面试必备-----大数据
-
- 一、Hadoop
-
- 问题:Hadoop中有哪些组件?
- 问题:Hadoop分为三个核心部分,每个部分是什么,有什么功能?
- 问题:Hadoop的shuffle过程
- 问题:Hadoop分布式集群中NN和DN、SN,指得是什么?他们分别有什么作用?
- 问题:Hadoop集群中请描述RM,NM是什么?有什么作用?
- 问题:Hadoop集群中RM中分为几大模块,每个模块有什么作用?
- 问题:Hadoop分布式集群与伪分布式集群的区别?
- 问题:hadoop集群中50070端口和8088端口,分别指的什么?
- 问题:如何为一个hadoop任务设置mappers的数量?
- 问题:有可能使hadoop任务输出到多个目录中么?如果可以,怎么做?
- 问题:Hadoop 中 job 和 task 之间的区别是什么?
- 问题:Hadoop框架中,文件拆分是怎么被调用的?
- 问题:在一个运行的hadoop任务中,什么是InputSpilt?
- 问题:Map阶段结束后,Hadoop框架会处理:Partitioning ,shuffle 和sort,在这个阶段都会发生了什么?
- 问题:Hadoop中通过拆分任务到多个节点运行来实现并行计算,但是某些节点运行较慢会拖慢整个任务的运行,hadoop采用何种机制应对这种情况?
- 问题:什么是Combiner?
- 问题:Zookeeper在Hadoop中的作用?
- 问题:Sqoop的底层原理?
- 问题:Sqoop是怎么连接的关系型数据库?
- 二、HDFS
- 三、Hive与HBase
-
- 问题:什么是BI,什么是数据仓库?为什么需要用数据仓库hive?
- 问题:hive中集合数据类型什么?有什么作用?什么情况下,hive需要使用集合类型?
- 问题:hive的使用,内外部表的区别,分区作用,UDF和Hive优化
- 问题:数据仓库hive中,启动hive服务器的命令有哪些?分别代表什么意思?内部表与外部表有啥区别?分区与分桶,指的是什么?
- 问题:Hive优化:看做mapreduce处理
- 问题:你的项目中你的Hive仓库怎么设计的?分几层?
- 问题:Hive中的内表和外表的区别?
- 问题:Hbase索引和Hive索引有什么区别?
- 问题:数据仓库Hive跟hadoop集群,有什么关系?使用hive的好处是什么?
- 问题:order by ,sort by ,destribute by,cluster by 区别?
- 四、Spark
算法面试必备-----大数据
一、Hadoop
问题:Hadoop中有哪些组件?
Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+…
1).HDFS:分布式文件存储系统
主:namenode,secondarynamenode
从:datanode
2).Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)
主:ResourceManager
从:NodeManager
3).MapReduce:Hadoop的计算框架,用map和reduce方式实现数据的全局汇总
4).Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等
主:QuorumPeerMain
从:QuorumPeerMain
5).Hbase:Hadoop下的分布式数据库,类似于NoSQL
主:HMaster,HRegionserver,Region
6).Hive:分布式数据仓库,其实说白了就是一个数据分析工具,底层用的还是MapReduce
7).Sqoop:用于将传统数据库中数据导入到hbase或者Hdfs中一个导入工具
8).Spark:基于内存的分布式处理框架
主:Master
从:Worker
问题:Hadoop分为三个核心部分,每个部分是什么,有什么功能?
三个核心:hdfs,mapreduce和yarn
Hadfs:分布式文件系统,mapreduce:分布式计算框架,yarn:资源调度器
功能:hdfs:由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。用于存储文件,通过目录树来定位文件
Mapreduce:采用“分而治之”的思想,来处理大规模的数据。将数据拆解成多个部分,并利用集群的多个节点同时进行数据处理,然后将各个节点得到的中间结果进行汇总,经过进一步的计算(该计算也是并行进行的),得到最终结果
问题:Hadoop的shuffle过程
一、Map端的shuffle
Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。
在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话),combiner的本质也是一个Reducer,其目的是对将要写入到磁盘上的文件先进行一次处理,这样,写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中,Map任务结束后就会被删除)。
最后,每个Map任务可能产生多个spill文件,在每个Map任务完成前,会通过多路归并算法将这些spill文件归并成一个文件。至此,Map的shuffle过程就结束了。
二、Reduce端的shuffle
Reduce端的shuffle主要包括三个阶段,copy、sort(merge)和reduce。
首先要将Map端产生的输出文件拷贝到Reduce端,但每个Reducer如何知道自己应该处理哪些数据呢?因为Map端进行partition的时候,实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer),所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition,但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。
接下来就是sort阶段,也成为merge阶段,因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的,所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。
问题:Hadoop分布式集群中NN和DN、SN,指得是什么?他们分别有什么作用?
NN:Name Node 管理HDFS的命名空间,配置副本策略,管理数据块(Block)映射信息,处理客户端读写请求
DN:DataNode 存储实际的数据块,执行数据块的读/写操作
SN:SecondaryNameNode 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ,在紧急情况下,可辅助恢复NameNode
问题:Hadoop集群中请描述RM,NM是什么?有什么作用?
RM和NM都是属于hadoop yarn资源调度器:
RM:资源管理者:1、处理客户端请求2、启动或监控 MRAppMaster3、监控 NodeManager4、资源的分配与调度
NM:节点管理者:1、管理单个节点上的资源2、处理来自 ResourceManager 的命令3、处理来自 MRAppMaster 的命令
问题:Hadoop集群中RM中分为几大模块,每个模块有什么作用?
RM分为:两个模块:ApplicationMaster (AM)和Containe。
ApplicationMaster (AM):
用户提交的应用程序均包含一个AM,负责应用的监控,跟踪应用执行状态,重启失败任务等。ApplicationMaster是应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控。
Container:
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。 YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。
问题:Hadoop分布式集群与伪分布式集群的区别?
分布式集群需要多台电脑,,一台为奴隶主机,其他的为奴隶机用来存储数据。
伪分布式集群可以使用一台电脑搭建,也可以使用多台电脑,只需要在slaves中添加自己的主机名就可以了,其他的与分布式一样。
问题:hadoop集群中50070端口和8088端口,分别指的什么?
50070:奴隶主机的namenode;
8088:yarn资源调度器中的RM;里面有所有的进程完成情况
问题:如何为一个hadoop任务设置mappers的数量?
使用job.setNumMapTask(int n)手动分割,这是不靠谱的
官方文档:“Note: This is only a hint