Hadoop之HDFS复习

本文详细介绍了Hadoop的分布式文件系统HDFS,包括其优点(如高容错性和适合大数据处理)、缺点(如低延迟访问不适、小文件存取问题)以及数据存储单元(block)的概念。还探讨了NameNode、SecondaryNameNode的角色,DataNode的存储功能,以及HDFS的Block副本放置策略。
摘要由CSDN通过智能技术生成

HDFS 优点:

1. 高容错性,数据自动保存多个副本,副本丢失后自动恢复

2. 适合批处理,移动计算而非数据,数据位置暴露给计算框架

3. 适合大数据处理,百万规模以上的文件数量

4. 可构建在廉价机器上,通过多副本提高可靠性,提供了容错和恢复机制

 

HDFS 缺点:

1. 不适合低延迟数据访问,比如毫秒级,低延迟与高吞吐率

HDFS是为了处理大型数据集分析任务,主要是为了达到高的数据吞吐量而设计的,这就要求可能以高延迟作为代价

2.不适合小文件存取,占用NameNode大量内存,取道时间超过读取时间

HDFS中,namenode将文件系统中的元数据存储在内存中,因此,HDFS所能存储的文件数量会受到namenode内存的限制。一般来说,每个文件、目录、数据块的存储信息大约占150个字节,根据当前namenode的内存空间的配置,就可以计算出大约能容纳多少个文件了

3.并发写入、文件随机修改,一个文件只能有一个写者,仅支持append


HDFS 数据存储单元(block

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值