每天一点hadoop 第二篇 HDFS(一)

在昨天我总结了一些hadoop的常识性的知识,那么接下来我就总结一下hadoop中HDFS的知识点。

1.HDFS的由来

HDFS全称是Hadoop Distributed Filesystem,是借鉴于Google的GFS开发的分布式文件系统。那么什么又是分布式文件系统呢?管理网络中跨多台计算机存储的文件系统称为分布式文件系统。这个文件系统要求能够容忍节点故障且不丢是任何数据。

2.HDFS的结构

HDFS是一种主从式结构。HDFS集群中包含一个NameNode(在hadoop2.x结构中有两个Namenode)主节点和多个DataNode从节点。
NameNode管理所有文件系统的元数据。这些包括文件系统的所有目录和文件同样也记录着各个数据块锁在的节点信息。
DataNode存储文件。存储的文件被分为大小相等的block块(默认为64MB).为保证数据安全有多个文件副本,存放在不同的DataNode上。

3.HDFS的优点

良好的扩展性
高容错性
数据自动保存多个副本
副本丢失或自动恢复
适合PB级以上海量数据的存储
适合大数据处理
可以有10K+节点
适合批量处理
移动计算而不是数据(分配任务时将任务分配到数据存储的节点)
流式文件访问
一次写入多次读取 高效的访问模式
保证数据的一致性
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制

4.HDFS的缺点

不能实现低延迟数据访问 数据量的高吞吐的代价就是数据处理的高延迟
小文件存储占用namenode 读取时间慢,文件系统所能存储的文件总数受制于namenode的内存容量。
不支持并发写入,文件只能有一个写者而且写操作总是将数据添加在文件的末尾不支持在文件的任意位置进行修改。

今天就总结这么多,明天会继续将HDFS介绍下去

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值