Hadoop理论概念学习（部分）

最新推荐文章于 2023-03-15 22:10:30 发布

BigData攻城狮

最新推荐文章于 2023-03-15 22:10:30 发布

阅读量336

点赞数 2

本文链接：https://blog.csdn.net/dlc_996/article/details/103811474

版权

1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?
第一步:inputformat进行数据读读取,将数据发送给split
第二步:split 将数据进行切分,发送给RecordReader
第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map
第四步:map 进行自定义逻辑的书写,将数据传给Shuffle
第五步:Shuffle中的Partition 将数据key的哈希值与ReduceTask数量取余,余几就分到哪个区
第六步:Shuffle中的Sort 将数据按照一定规则进行排序
第七步:Shuffle中的Combine 将数据在map端先进行局部聚合,这样做的好处数节省了网络带宽的消耗,效率更高
第八步:Shuffle中的Group 将数据相同的key变成一个key,将这个key的Value拼装成一个Value的list
第九步:Reduce 进行自定义计算逻辑的书写,将结果发送给OutputFormat
第十步:OutPutFormat 将结果数据输出保存到HDFS上

2、Hadoop 的组成部分有哪些模块？
HDFS 分布式文件存储系统
管理者：NameNode
工作者：DataNode
辅助者：SecondayNameNode
MapReduce 分布式离线计算框架
Yarn Hadoop资源调度器
管理者：ResourceManager
工作者：NodeManager

3、请阐述一下Hbase详细架构？
Client：
访问数据的入口，包含访问hbase的API接口,维护着一些cache来加快对hbase的访问
Zookeeper：
1.zookeeper的选举机制保证任何时候，集群中只有一个master

最低0.47元/天解锁文章

BigData攻城狮

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop理论概念学习（部分）

1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步...
复制链接

扫一扫