大数据技术基础笔记3 分布式文件系统HDFS

最新推荐文章于 2024-05-17 19:36:24 发布

Lora青蛙

最新推荐文章于 2024-05-17 19:36:24 发布

阅读量1.6k

点赞数

分类专栏：大数据技术基础文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/LoraRae/article/details/116495928

版权

文章目录

3.1 分布式文件系统

计算机集群结构
• 分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。
• 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销。
在这里插入图片描述

分布式文件系统的结构
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类
-主节点(Master Node)/名称结点(NameNode)
-从节点（Slave Node）/数据节点(DataNode)
在这里插入图片描述
• 分布式文件系统需满足：
– 透明性
• 对用户来说，无需关心文件被划分成多少块，无需关心文件存在哪里，无需关心集群节点增加或减少造成的影响
– 并发控制
• 一个用户访问文件，不影响其他用户对同一个文件的访问
– 文件复制
• 支持多副本
– 硬件和操作系统异构性
– 可伸缩性
• 节点可随时加入或退出
– 容错
– 安全

3.2 HDFS简介

• 总体而言，HDFS实现了以下目标：
• 兼容廉价的硬件设备
• 流数据读写
• 大数据集
• 简单的文件模型
• 强大的跨平台兼容性
• HDFS特殊的设计，在实现上述优良特性的同时，也使得自身具有一些应用局限性，主要包括以下几个方面：
• 不适合低延迟数据访问
• 无法高效存储大量小文件
• 不支持多用户写入及任意修改文件

3.3 HDFS相关概念

块
• HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位，块的大小远远大于普通文件系统，可以最小化寻址开销。
• HDFS采用抽象的块概念可以带来以下几个明显的好处：
– 支持大规模文件存储，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量
– 简化系统设计，很容易计算出一个节点可以存储多少文件块；元数据可以单独管理和存储
– 适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性

名称节点和数据节点

最低0.47元/天解锁文章

Lora青蛙

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
大数据技术基础笔记3 分布式文件系统HDFS

文章目录3.1 分布式文件系统3.2 HDFS简介3.3 HDFS相关概念3.4 HDFS体系结构• 3.1 分布式文件系统• 3.2 HDFS简介• 3.3 HDFS相关概念• 3.4 HDFS体系结构• 3.5 HDFS存储原理• 3.6 HDFS数据读写过程• 3.7 HDFS编程实践3.1 分布式文件系统计算机集群结构• 分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。• 与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布
复制链接

扫一扫

专栏目录