大数据面试题

最新推荐文章于 2024-08-24 18:53:20 发布

老子天下最美

最新推荐文章于 2024-08-24 18:53:20 发布

阅读量1.2w

点赞数 10

分类专栏：面试题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sunshine_2211468152/article/details/83627524

版权

技术面试题

1.Hadoop中有哪些组件？

Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+...

1).HDFS:分布式文件存储系统

主：namenode,secondarynamenode

从：datanode

2).Yarn:分布式资源管理系统，用于同一管理集群中的资源（内存等）

主：ResourceManager

从：NodeManager

3).MapReduce:Hadoop的计算框架，用map和reduce方式实现数据的全局汇总

4).Zookeeper：分布式协调服务，用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等

主：QuorumPeerMain

从：QuorumPeerMain

5).Hbase:Hadoop下的分布式数据库，类似于NoSQL

主：HMaster,HRegionserver,Region

7).Hive:分布式数据仓库，其实说白了就是一个数据分析工具，底层用的还是MapReduce

8).Sqoop:用于将传统数据库中数据导入到hbase或者Hdfs中一个导入工具

9).Spark:基于内存的分布式处理框架

主：Master

从：Worker

2.Hdfs中角色有哪些？

NameNode：管理元数据信息，给子节点分配任务（FSImage是主节点启动时对整个文件系统的快照，Edits是修改记录）

DataNode：负责数据存储，实时上报心跳给主节点

SecondaryNameNode：

1）首先，它定时到NameNode去获取edit logs，并更新到fsimage上。一旦它有了新的fsimage文件，它将其拷贝回 NameNode中。

2） NameNode在下次重启时会使用这个新的fsimage文件，从而减少重启的时间。

3.Hdfs和Yarn有什么区别？

1）Hdfs是分布式文件存储系统，是用来存储文件的；

2）Yarn是一个资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

4.MapReduce的shuffle过程？

从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。

1).Collect阶段：将MapTask的结果输出到默认大小为100M的环形缓冲区，保存的是key/value，Partition分区信息等。

2).Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner，还会将有相同分区号和key的数据进行排序。

3).

最低0.47元/天解锁文章

老子天下最美

关注

10
点赞
踩
82

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

老子天下最美 CSDN认证博客专家 CSDN认证企业博客

码龄7年

39: 原创

18万+: 周排名

105万+: 总排名

17万+: 访问

: 等级

1803: 积分

47: 粉丝

118: 获赞

27: 评论

432: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是线程阻塞?为什么会出现线程阻塞？
SockeBoy: 博主写错了，sleep方法后cpu执行权交出去了，但是对象锁没有释放。
什么是线程阻塞?为什么会出现线程阻塞？
m0_61789314: 的确有点误人子弟
什么是线程阻塞?为什么会出现线程阻塞？
keep thinking: 1.睡眠状态：当一个线程执行代码的时候调用了sleep方法后，线程处于睡眠状态，需要设置一个睡眠时间，此时分为两种情况，（1）如果当前线程所在的环境是被一把独享锁锁住的，有其他线程需要执行时就会将其它线程在当前线程的睡眠时间内一直让其在环境外面排队等待获取锁，就会造成线程阻塞。（2）如果当前线程所在的环境是把一把共享锁锁住的，或者干脆当前环境没有锁，则当前线程睡眠后，其它线程是有机会获取锁的，并且有机会执行的。且当前线程睡眠时间过后，也并不是第一时间就可以获取到CPU执行权的，它需要同其它线程进行争夺。综上所述：sleep方法被调用之后，线程不会释放锁对象，也就是说锁还在该线程手里，CPU执行权会被释放掉，等睡眠时间一过，该线程就会进入就绪状态，典型的“占着茅坑不拉屎”；至于是否执行还得根据具体情况分析
什么是scala?scala有什么用？
JimmyStudyEve: 什么叫优雅？
什么是线程阻塞?为什么会出现线程阻塞？
StromanStroman: 你对线程阻塞的解释不明白。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。