Hadoop基本组件和HDFS的目标

3.3 Hadoop基本组件
Hadoop实际是由三个不同的组件构成:
● HDFS:Hadoop分布式文件系统。
● YARN:一个资源调度框架。
● MapReduce:一个分布式处理框架。

1. HDFS的目标
● 硬件容错。
检测硬件错误并从有问题的硬件快速自动恢复,就成为HDFS架构的核心目标。
● 流式数据访问。
流式访问就是对数据边读取边处理,而不是将整个数据集读取完成后再开始处理。
● 支持大数据集。
HDFS中一个典型文件的大小是几GB到几TB。HDFS需要支持大文件,它应该提供很大的数据带宽,能够在单一集群中扩展几百甚至数千个节点,并且一个HDFS实例应该能够支持几千万个文件。
● 简单的一致性模型。
HDFS应用程序访问文件是一次写多次读模式。文件一旦被创建,对该文件只能执行追加或彻底清除操作。追加的内容只能写到文件尾部,而文件中已有的任何内容都不能被更新。
● 移动计算而不是移动数据。
通常,将计算移动到临近数据的位置,比把数据移动到应用运行的位置要好。HDFS为应用程序提供接口,把计算移动到数据所在位置。
● 便捷访问异构的软硬件平台。
HDFS能够很容易地从一个平台迁移到另一个,这种便利性使HDFS为大量应用程序所采用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,其中的Hadoop Distributed File System(HDFS)是其核心组件之一。HDFS是一个设计用于存储大规模数据的分布式文件系统,其目标是提供高可靠性、高性能和高可扩展性。下面对Hadoop 2.x HDFS的源码进行剖析。 HDFS的源码主要包含以下几个关键模块:NameNode、DataNode、BlockManager和FileSystem。 首先,NameNode是HDFS的主节点,负责管理文件系统的命名空间和元数据(例如文件的名称和位置等)。它通过解析客户端的请求,维护了一个表示文件和目录路径的层次结构,并使用高效的数据结构(如内存中的树状结构)来存储和管理元数据。 其次,DataNode是HDFS的工作节点,负责存储和处理实际的数据块。每个DataNode都与一个或多个存储介质(如磁盘)相连,可以提供数据的读取和写入操作。DataNode定期向NameNode报告其存储的数据块的状态,并接收来自NameNode的指令,如复制、移动和删除数据块。 BlockManager是NameNode的重要组成部分,负责管理数据块的复制和位置信息。它通过与DataNode的交互,监控和维护数据块的复制系数(即数据块的副本数),确保数据块的可靠性和可用性。 最后,FileSystem是用户与HDFS进行交互的接口。它提供了一系列的API和命令,例如创建、读取和写入文件等,以便用户可以对HDFS中的文件进行操作。 Hadoop 2.x HDFS的源码剖析主要涉及上述模块的实现细节,包括具体数据结构的设计和实现、请求处理的流程、数据块的复制策略以及与底层存储介质的交互等。剖析源码可以深入了解HDFS的内部工作原理,帮助开发者理解和优化系统的性能,同时也有助于扩展和改进HDFS的功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值