HDFS 相关概念和特性

最新推荐文章于 2023-05-05 17:39:08 发布

灬十二

最新推荐文章于 2023-05-05 17:39:08 发布

阅读量199

点赞数

分类专栏：大数据文章标签：大数据

大数据专栏收录该内容

26 篇文章 1 订阅

订阅专栏

1.HDFS 设计思路
HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？
1、大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理
2、每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失
在这里插入图片描述
2.HDFS 架构
主节点 Namenode：集群老大，掌管文件系统目录树，处理客户端读且请求
SecondaryNamenode：严格说并不是 namenode 备份节点，主要给 namenode 分担压力之用从节点 Datanode：存储整个集群所有数据块，处理真正数据读写

3.概念和特性
首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件
其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器都有各自清晰的角色定位
重要特性如下：
1、 HDFS 中的文件在物理上是分块存储（block），块的大小可以通过配置参数(dfs.blocksize) 来规定，默认大小在 hadoop2.x 版本中是 128M，老版本中是 64M。
2、 HDFS 文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data
hdfs://hadoop02:9000/soft/hadoop-2.6.5-centos-6.7.tar.gz
3、目录结构及文件分块位置信息(元数据)的管理由 namenode 节点承担 namenode 是 HDFS 集群主节点，负责维护整个 hdfs 文件系统的目录树，以及每一个路径（文件）所对应的 block 块信息（block 的 id，及所在的 datanode 服务器）
4、文件的各个 block 的存储管理由 datanode 节点承担 datanode 是 HDFS 集群从节点，每一个 block 都可以在多个 datanode 上存储多个副本（副本数量也可以通过参数设置 dfs.replication，默认是 3）
5、 HDFS 是设计成适应一次写入，多次读出的场景，且不支持文件的修改
(PS：适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高)
4.HDFS 优缺点
1、 HDFS 优点：
可构建在廉价机器上通过多副本提高可靠性，提供了容错和恢复机制高容错性数据自动保存多个副本，副本丢失后，自动恢复适合批处理移动计算而非数据，数据位置暴露给计算框架适合大数据处理
GB、TB、甚至 PB 级数据，百万规模以上的文件数量，10K+节点规模流式文件访问一次性写入，多次读取，保证数据一致性
2、HDFS 缺点
①不适于以下操作：
低延迟数据访问比如毫秒级
低延迟与高吞吐率小文件存取
占用 NameNode 大量内存 150b* 1000W = 15E,1.5G 寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持 append
②HDFS 不适合存储小文件
元信息存储在 NameNode 内存中一个节点的内存是有限的
存取大量小文件消耗大量的寻道时间
类比拷贝大量小文件与拷贝同等大小的一个大文件
NameNode 存储 block 数目是有限的一个 block 元信息消耗大约 150 byte 内存存储 1 亿个 block，大约需要 20GB 内存
如果一个文件大小为 10K，则 1 亿个文件大小仅为 1TB（但要消耗掉 NameNode 20GB 内存）

灬十二

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HDFS 相关概念和特性

1.HDFS 设计思路HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？1、大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理2、每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失2.HDFS 架构主节点 Namenode：集群老大，掌管文件系统目录树，处理客户端读且请求SecondaryNamenode：严格说...
复制链接

扫一扫

专栏目录