大数据学习笔记 第三章 分布式文件系统 HDFS

本文介绍了Hadoop的分布式文件系统HDFS,包括其设计目标、局限性、核心概念如块、名称节点与数据节点,以及HDFS的体系架构、存储原理和数据读写过程。此外,还探讨了HDFS的编程实践和使用Java API进行交互的方法。
摘要由CSDN通过智能技术生成

分布式文件系统HDFS 简介

HDFS实现目标:
①兼容廉价的硬件设备
②实现流数据的读写
③支持大数据集
④支持简单的文件模型
⑤强大的跨平台兼容性

HDFS自身的局限性
① 不适合低延迟数据访问
②无法高效存储大量小文件
③不支持多用户写入及任意修改文件

HDFS相关概念

1.块
整个HDFS中最核心的概念

为了分摊磁盘读写开销
HDFS的一个块要比普通文件大

缺点:如果块过大,会导致MapReduce 就一两个任务在执行完全牺牲了MapReduce的并行度,发挥不了分布式并行处理的效果。

好处:①支持大规模文件存储②简化系统设计③适合数据备份

2.名称节点与数据节点

名称节点(主节点)
相当于整个HDFS的管家,数据目录

数据目录:①文件是什么②文件被分成多少块③每个块和文件是怎么映射的④每个块被存储在哪个服务器上面

内容:
①FsImage 保存系统文件树
文件的复制等级、修改和访问时间、访问权限、块大小以及组成文件的块
②EditLog 记录对数据进行的创建删除重命名操作
NameNode 的工作原理
第二名称节点:
① 名称节点的冷备份 ② 对Editlog的处理

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值