HDFS深入理解

最新推荐文章于 2024-01-07 10:52:54 发布

Sin_Geek

最新推荐文章于 2024-01-07 10:52:54 发布

阅读量1k

点赞数 2

分类专栏：大数据技术文章标签：大数据 HDFS

本文链接：https://blog.csdn.net/sin_geek/article/details/82696778

版权

本文参考《Hadoop权威指南》与网上相关资料整理完成
[TOC]

1 HDFS简介

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

2 HDFS优缺点

2.1 优点：

1) 高容错性

数据自动保存多个副本。它通过增加副本的形式，提高容错性。某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。
　　
2) 适合批处理

它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。

3) 适合大数据处理

处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量，数量相当之大。能够处理10K节点的规模。

4) 流式文件访问

一次写入，多次读取。文件一旦写入不能修改，只能追加和删除。它能保证数据的一致性。

5) 可构建在廉价机器上

Hadoop不需要特别贵的、可靠的机器，可运行于普通商用机器（可以从多家供应商采购）。

2.2 缺点

1) 低延时数据访问

比如毫秒级的来存储数据，这是不行的，它做不到。它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。

2) 大量小文件存储

文件的元数据（如目录结构，文件block的节点列表，block-node mapping）保存在NameNode的内存中，整个文件系统的文件数量会受限于NameNode的内存大小。经验而言，一个文件/目录/文件块一般占有150字节的元数据内存空间。如果有100万个文件，每个文件占用1个文件块，则需要大约300M的内存。因此十亿级别的文件数量在现有商用机器上难以支持。

3) 并发写入、文件随机修改

一个文件只能有一个写，不允许多个线程同时写。仅支持数据 append（追加），不支持文件的随机修改。

3 HDFS核心概念

3.1 Blocks

物理磁盘中有块的概念，磁盘的物理Block是磁盘操作最小的单元，读写操作均以Block为最小单元，一般为512 Byte。文件系统在物理Block之上抽象了另一层概念，文件系统Block物理磁盘Block的整数倍。通常为几KB。Hadoop提供的df、fsck这类运维工具都是在文件系统的Block级别上进行操作。

HDFS的Block块比一般单机文件系统大得多，默认为128M。HDFS的文件被拆分成block-sized的chunk，chunk作为独立单元存储。比Block小的文件不会占用整个Block，只会占据实际大小。例如，如果一个文件大小为1M，则在HDFS中只会占用1M的空间，而不是128M。

刚刚提到HDFS中的Block默认为128M，比一般单机文件系统大得多，原因是为了最小化查找（seek）时间，控制定位文件与传输文件所用的时间比例。假设定位到Block所需的时间为10ms，磁盘传输速度为100M/s。如果要将定位到Block所用时间占传输时间的比例控制1%，则Block大小需要约100M。但是如果Block设置过大，在MapReduce任务中，Map或者Reduce任务的个数如果小于集群机器数量，会使得作业运行效率很低。

Block的拆分使得单个文件大小可以大于整个磁盘的容量，构成文件的Block可以分布在整个集群，理论上，单个文件可以占据集群中所有机器的磁盘。 Block的抽象也简化了存储

最低0.47元/天解锁文章

Sin_Geek

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS深入理解

本文参考《Hadoop权威指南》与网上相关资料整理完成1 HDFS简介HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超...
复制链接

扫一扫

专栏目录