HDFS简介及基本概念（*）

Firm陈

已于 2022-07-28 10:52:55 修改

阅读量5.9k

点赞数 1

分类专栏： Java开发经验文章标签： hadoop big data

于 2021-10-16 14:23:19 首次发布

本文链接：https://blog.csdn.net/weixin_42408447/article/details/120798025

版权

本文介绍了HDFS（Hadoop Distributed File System），它是Hadoop生态系统中的核心存储组件，专注于流式数据访问和大规模数据存储。HDFS采用数据块概念，支持冗余备份以确保容错性，其架构包括namenode和datanode。文章还讨论了namenode的高可用性机制、块缓存和联邦HDFS，强调了HDFS在处理大数据存储时的关键作用。

摘要由CSDN通过智能技术生成

前言

当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时，就需要对数据进行分区并存储到若干台计算机上去。管理网络中跨多台计算机存储的文件系统统称为分布式文件系统（distributed fileSystem）。

分布式文件系统由于其跨计算机的特性，所以依赖于网络的传输，势必会比普通的本地文件系统更加复杂，比如：如何使得文件系统能够容忍节点的故障并且保证不丢失数据，这就是一个很大的挑战。

一.HDFS简介及其基本概念

HDFS（Hadoop Distributed File System）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件集群内的不同机器上。

这里重点介绍其中涉及到的几个概念：（1）超大文件。目前的hadoop集群能够存储几百TB甚至PB级的数据。（2）流式数据访问。HDFS的访问模式是：一次写入，多次读取，更加关注的是读取整个数据集的整体时间。（3）商用硬件。HDFS集群的设备不需要多么昂贵和特殊，只要是一些日常使用的普通硬件即可，正因为如此，hdfs节点故障的可能性还是很高的，所以必须要有机制来处理这种单点故障，保证数据的可靠。（4）不支持低时间延迟

最低0.47元/天解锁文章

Firm陈

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
HDFS简介及基本概念（*）

前言当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时，就需要对数据进行分区并存储到若干台计算机上去。管理网络中跨多台计算机存储的文件系统统称为分布式文件系统（distributed fileSystem）。分布式文件系统由于其跨计算机的特性，所以依赖于网络的传输，势必会比普通的本地文件系统更加复杂，比如：如何使得文件系统能够容忍节点的故障并且保证不丢失数据，这就是一个很大的挑战。一.HDFS简介及其基本概念HDFS（Hadoop Distributed File System）是had
复制链接

扫一扫