大数据面试题

技术面试题

1.Hadoop中有哪些组件?

              Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+...

            1).HDFS:分布式文件存储系统

                 主:namenode,secondarynamenode

                 从:datanode

            2).Yarn:分布式资源管理系统,用于同一管理集群中的资源(内存等)

                     主:ResourceManager

                     从:NodeManager

            3).MapReduce:Hadoop的计算框架,用map和reduce方式实现数据的全局汇总

            4).Zookeeper:分布式协调服务,用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等

                     主:QuorumPeerMain

                     从:QuorumPeerMain

            5).Hbase:Hadoop下的分布式数据库,类似于NoSQL

                     主:HMaster,HRegionserver,Region

            7).Hive:分布式数据仓库,其实说白了就是一个数据分析工具,底层用的还是MapReduce

            8).Sqoop:用于将传统数据库中数据导入到hbase或者Hdfs中一个导入工具

            9).Spark:基于内存的分布式处理框架

                     主:Master

                     从:Worker

2.Hdfs中角色有哪些?

          NameNode:管理元数据信息,给子节点分配任务(FSImage是主节点启动时对整个文件系统的快照,Edits是修改记录)

          DataNode:负责数据存储,实时上报心跳给主节点

          SecondaryNameNode:

                1)首先,它定时到NameNode去获取edit logs,并更新到fsimage上。一旦它有了新的fsimage文件,它将其拷贝回                            NameNode中。

               2) NameNode在下次重启时会使用这个新的fsimage文件,从而减少重启的时间。

3.Hdfs和Yarn有什么区别?

              1)Hdfs是分布式文件存储系统,是用来存储文件的; 

              2)Yarn是一个资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和                        数据共享等方面带来了巨大好处

4.MapReduce的shuffle过程?

              从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。

              1).Collect阶段:将MapTask的结果输出到默认大小为100M的环形缓冲区,保存的是key/value,Partition分区信息等。

              2).Spill阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据                     进行一次排序的操作,如果配置了combiner,还会将有相同分区号和key的数据进行排序。

              3).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值