hadoop 4.0 知识整理

本文详细介绍了Hadoop 4.0的核心组成部分,包括HDFS、MapReduce和YARN。阐述了HDFS的文件块大小、写入和读取流程,以及副本选择策略。此外,还探讨了MapReduce的执行流程,MapJoin和ReduceJoin的差异,以及YARN的执行流程和调度器的工作原理。Hadoop的优势在于其分布式、容错性和可扩展性。
摘要由CSDN通过智能技术生成

hadoop

hadoop 是什么

hadoop是一个分布式系统基础架构,主要解决海量数据存储和计算问题。

hadoop 优势

多副本机制保证系统可靠性,处理节点可以动态添加/删除保证系统的可扩展性,MapReduce并行工作保证系统的高效性,失败任务默认重新分配4次执行保证系统的容错性。

hadoop 组成部分

HDFS存储数据,MapReduce分析计算数据,Yarn根据计算任务分发资源。

HDFS 组成部分

NameNode:管理文件块名称列表和对应文件块所在的DataNode,副本数量,权限信息。
DataNode:文件块数据存储的节点,NameNode上维护的信息是DataNode主动发给NameNode的,默认6个小时和hadoop重启会发送。还会主动发送心跳机制,NameNode默认在10分钟+30秒没有收到心跳则判断该DataNode节点不可用。
SecondaryNameNode:NameNode节点的辅助管理节点,辅助追加日志和元数据的合并。

MapReduce 组成部分

Map阶段:并行处理传入数据
Reduce阶段:并行根据分区拉起Map输出结果进行汇总等处理,输出结果。
Shuffle阶段:Map阶段到Reduce阶段的中间部分,主要设置分区或根据key值进行排序/合并或中间文件压缩传输等操作。

Yarn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值