Hadoop学习笔记:分布式文件系统HDFS

本文详细介绍了Hadoop分布式文件系统HDFS的设计思想、架构、内部机制和高可用性。HDFS具有高容错性、适合大数据处理等特点,但也存在高延迟访问和不支持小文件等问题。文章讨论了HDFS的NameNode和DataNode角色,以及数据读写、容错策略和程序设计方法。
摘要由CSDN通过智能技术生成

背景

HDFS(Hadoop Distributed File System)源自于Google发表于2003年10月的GFS论文,HDFS是GFS克隆版。它是一个易于扩展的分布式文件系统,可以运行在大量普通廉价机器上,它提供容错机制,为大量用户提供性能不错的文件存取服务。
它具有以下优点:

  • 高容错性:数据自动保存多个副本, 副本丢失后,自动恢复
  • 适合批处理:移动计算而非数据,数据位置暴露给计算框架
  • 适合大数据处理:GB、TB、甚至PB级数据,百万规模以上的文件数量,10K+节点规模
  • 流式文件访问:一次性写入,多次读取,保证数据一致性
  • 可构建在廉价机器上 :通过多副本提高可靠性,提供了容错和恢复机制

它也具有以下缺点:

  • 高延迟数据访问:HDFS像火车,高吞吐率,高延迟,比较笨重;
  • 对大量小文件存取支持不好:HDFS对亿级以上的大量小文件存取支持不好,NameNode占用大量内存,寻道时间超过读取时间
  • 不支持并发写入:一个文件只能有一个写者,不支持并发写入,只能一个一个的写入;
  • 文件不支持修改:HDFS文件不支持修改,只支持追加,或是添加新文件,删除原文件。

HDFS架构

HDFS设计思想

分布式文件系统的一种实现方式
在这里插入图片描述以上方案不好做负载均衡和容错,不支持计算框架的并行处理。HDFS将每个文件分成等大的数据块(默认128M),然后分成多副本(默认3个)均匀的放在不同的节点上,解决了负载均衡和容错的问题,同时也支持计算框架的并行运算。

HDFS架构

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值