7.hdfs概述

最新推荐文章于 2024-09-04 19:00:59 发布

code1997

最新推荐文章于 2024-09-04 19:00:59 发布

阅读量83

点赞数

分类专栏： hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/qq_44739500/article/details/112000233

版权

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HDFS概述

1 HDFS产生的背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切的需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统的一种。

2 HDFS的定义

HDFS，是一个文件系统，用于存储文件，通过目录树来定位文件，其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务有各自的角色。

使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合做数据分析，并不适合做网盘应用

3 HDFS优缺点

3.1 优点

1）高容错性

自动保存多个副本，通过增加副本的形式，提高容错性。
当一个副本丢失以后，它可以自动恢复。

2）适合处理大数据

数据规模：可以处理GB，TB甚至是PB级别的数据。
文件规模：可以处理百万规模以上的文件数量，数量大。

3）可以构建在廉价的机器上，通过多副本机制，提高可靠性。

3.2 缺点

1）不适合低延时护具访问，比如毫秒级的存储数据。

2）无法高效对大量小文件进行存储。

存储大量小文件会占用NameNode大量的内存来存储文件目录和块信息。
小文件存储的寻址时间会超过读取时间，违反了HDFS的设计目标。

3）不支持并发写入，文件随机修改

一个文件只能一个写，不支持多线程同时写。
仅支持数据追加，不支持文件随机修改。

4 HDFS的组成架构

1）NameNode(nn)：就是master，他是一个主管，管理者

管理HDFS的名称空间
配置副本策略
管理数据块(Block)的映射信息。
处理客户端读写请求。

2）DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。

存储实际的数据块。
执行数据块的读/写操作。

3）Client：客户端

文件的切分，文件上传HDFS的时候，Client将文件切分成一个个的Block，然后进行上传。
与Name交互，获取文件的位置信息。
与DataNode交互，读取或者写入数据。
Client提供一些命令来管理HDFS，比如NameNode格式化。
Client通过一些命令访问HDFS，比如对HDFS的增删改查。

4）SecondaryNameNOde：非NameNode的热备，当NameNode挂掉的时候，它不能马上替换NameNode进行工作。

复制NameNode，分担工作量。比如定期合并Fsimage和Edits，并推送给Namenode。
紧急情况下，辅助恢复NameNode。

5 HDFS文件块大小

Hdfs中的文件在物理上是分块存储的，块的大小可以提供配置参数(dfs.blocksize)来规定，在Hadoop2.x默认为128M，老版本为64m。

思考：问什么块大小不能太小，也不能太大。

1）HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置。

2）如果块设置的太大，从磁盘传输数据的时间会明显大于定义的时间，导致程序处理这块数据非常的慢。

3）HDFS块的大小设置取决于磁盘传输速率。

code1997

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
7.hdfs概述

HDFS概述1 HDFS产生的背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切的需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统的一种。2 HDFS的定义 HDFS，是一个文件系统，用于存储文件，通过目录树来定位文件，其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务有各自的角色。使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合做数据分析，并
复制链接

扫一扫

专栏目录