十四、HDFS在分布式系统中的应用(上)

概述

HDFS基本思想



难以实现负载均衡

  1. 文件大小不一,负载均衡实现不易
  2. 用户自己控制文件大小,不大现实

并行化处理困难

  1. 只有一个节点资源处理一个文件
  2. 无法使用集群处理同一个文件

 

Hdfs的诞生


v  来自Google的GFS论文

  1. GFS发表与2003年
  2. HDFS相当于从理论上克隆GFS

v  Hadoop Distributed File System

  1. 容易拓展的分布式文件系统
  2. 可运行在大量的廉价PC上,提供容错
  3. 性能保障

HDFS优势

高容错性

  1. 数据能自动保存多个副本
  2. 数据丢失后,自动恢复

适合批处理

  1. 能空余本地资源(CPU、内存)方便计算
  2. 数据位置暴漏给计算框架

适合大数据处理

  1. GB、TB、PB级数据量
  2. 百万规模的文件数量
  3. 上万节点规模应用

流式文件访问

  1. 一次写入多次读取
  2. 保证数据一致性

可构建在廉价的PC上

  1. 通过多个副本提高可靠性
  2. 提供了容错和恢复机制

但是

低延迟的数据访问

  1. 大数据下无法做到毫秒级
  2. 低延迟与高吞吐率之间平衡(Tachyon可提供搞吞吐率)

小文件存取

  1. 文件一次性过多会占用NameNode大量内存
  2. 寻址时间超过读取时间

并发写入,文件随机修改

  1. 一个文件只能由一个人写
  2. 只支持append

HDFS的高可用

NameNode HA

  1. 基于NFS共享存储解决方案
  2. 基于Zookeeper解决方案
  3. 基于QJM解决方案

NameNode Federation

  1. 多个NameNode分管一部分目录
  2. NameNode共用DataNode

HDFSFederation

 

 



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值