三十二、HDFS产生背景、概念、优缺点、块大小

最新推荐文章于 2022-11-24 16:26:31 发布

大话JAVA的那些事

最新推荐文章于 2022-11-24 16:26:31 发布

阅读量1.6k

点赞数 1

分类专栏：大数据从零开始学大数据文章标签： HDFS介绍

本文链接：https://blog.csdn.net/newbie_907486852/article/details/83047950

版权

大数据同时被 2 个专栏收录

43 篇文章 1 订阅

订阅专栏

从零开始学大数据

34 篇文章 11 订阅

订阅专栏

HDFS产生背景、概念、优缺点、块大小

1、HDFS概念

HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。

2、HDFS架构

在这里插入图片描述

nameNode：管理元数据、文件目录
Secondary NameNode:对元数据进行热备份(不是最重要的任务),其最重要的任务是周期性合并编辑日志中的命名空间镜像,以避免编辑日志
过大;可辅助恢复NameNode;分担NameNode工作
dataNode：管理每个数据块
replication：每个数据块默认有三个副本集
Client：对HDFS的写入
Rack：支架

3、HDFS组成

1）HDFS集群包括，NameNode和DataNode以及Secondary Namenode。
2）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。（管理元数据）
3）DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本。（管理数据块）
4）Secondary NameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。（元数据的快照）

4、HDFS优缺点

优点：

1）高容错性：数据自动保存多个副本，当一个副本丢失后，可以自动回复。
2）适合大数据处理：文件规模大（个数多）、数据规模大（数据大小）
3) 流式数据访问：一次写入，多次读取，不能修改，只能追加。保证数据一致性。
4) 构建成本低：可以构建在廉价的机器上。

缺点：

1）不适合做低延迟数据访问，比如毫秒级的数据访问是做不到的。
2）无法高效的对大量小文件进行存储。
3）无法并发写入和随机修改。

5、 HDFS 文件块大小

在这里插入图片描述

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M

HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传输速率。

如果寻址时间约为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%，我们要将块大小设置约为100MB。默认的块大小128MB。
块的大小：10ms100100M/s = 100M

大话JAVA的那些事

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录