大数据技术原理与应用笔记（3）——分布式文件系统HDFS

最新推荐文章于 2023-03-16 14:15:54 发布

Lzzwwen

最新推荐文章于 2023-03-16 14:15:54 发布

阅读量1.8k

点赞数 1

分类专栏：大数据技术与原理文章标签：大数据

本文链接：https://blog.csdn.net/L_zzwwen/article/details/90116491

版权

本文深入探讨了HDFS（Hadoop Distributed File System），作为大数据存储的关键技术，其目标是兼容廉价硬件，支持高效数据读写。文章详细介绍了HDFS的体系结构，包括名称节点和数据节点的角色，以及数据的存储和读取策略。HDFS通过块存储、多副本冗余策略确保数据的可靠性和高可用性。同时，文章也指出了HDFS的局限性，如不适用于低延迟访问和小文件存储。

摘要由CSDN通过智能技术生成

分布式文件系统HDFS

大数据技术以及具有代表性的Hadoop平台，所要解决的最核心的两大问题是：

大数据的分布式存储
大数据的分布式处理

而HDFS(Hadoop Distributed File System)就是为了解决海量数据的分布式存储问题。

3.1 分布式文件系统

（1）计算机集群结构

分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。
与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销。

（2）分布式文件系统结构

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类：一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另
一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode)。

主节点承担起数据目录（元数据）服务，而从节点具体完成数据的存储任务。
在这里插入图片描述

3.2 HDFS简介

（1）HDFS要实现的目标

兼容廉价的硬件设备

大数据时代最重要的是能够让企业以可承担的成本区存储和处理数据。
流数据读写
大数据集
简单的文件模型

HDFS要支持高效的数据读写，对文件模型进行了简化，牺牲了一些相关的性能，从而获得的批处理的特性（允许追加，不允许修改）。
强大的跨平台兼容性

（2）HDFS的局限性

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

3.3 HDFS相关概念

3.3.1 块、名称节点、数据节点

（1）块

块(Block)：HDFS中最核心的概念。

HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位，块的大小远远大于普通文件系统，可以最小化寻址开销。

HDFS采用抽象的块概念可以带来以下几个明显的好处：

支持大规模文件存储：文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量。
简化系统设计：首先，大大简化了存储管理，因为文件块大小是固定的，这样就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据。
适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性。

（2）

最低0.47元/天解锁文章

Lzzwwen

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据技术原理与应用笔记（3）——分布式文件系统HDFS

分布式文件系统HDFS大数据技术以及具有代表性的Hadoop平台，所要解决的最核心的两大问题是：大数据的分布式存储大数据的分布式处理而HDFS(Hadoop Distributed File System)就是为了解决海量数据的分布式存储问题。3.1 分布式文件系统（1）计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使...
复制链接

扫一扫