大数据入门——HDFS的特性

最新推荐文章于 2022-08-29 12:57:13 发布

小哪吒的BD

最新推荐文章于 2022-08-29 12:57:13 发布

阅读量1.7w

点赞数 4

分类专栏： hadoop 文章标签： HDFS

本文链接：https://blog.csdn.net/Mr_Yang888/article/details/102915537

版权

hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

HDFS的特性

目标：掌握HDFS具备的特性
1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别或更高级别的数据存储。

2、高容错性：数据保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，进行负载均衡，将数据分发和备份数据均衡到新的节点上。
　　
3、商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件（廉价商业硬件）的集群上的。

4、大文件存储：HDFS采用数据块的方式存储数据，将数据物理切分成多个小的数据块。所以再大的数据，切分后，大数据变成了很多小数据。用户读取时，重新将多个小数据块拼接起来。

易懂总结：
1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别数据。
2、高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复。
可构建在廉价（与小型机大型机比）的机器上，实现线性扩展(随着节点数量的增加，集群的存储能力，计算能力随
之增加)。 3、大文件存储：DFS采用数据块的方式存储数据，将一个大文件切分成多个小文件，分布存储。

HDFS缺点

目标：HDFS不擅长的场景
1、不能做到低延迟数据访问：由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟访问数据的业务需求不适合HDFS。

2、不适合大量的小文件存储：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果有一百万个小文件，每个小文件都会占一个数据块，那至少需要300MB内存。如果是上亿级别的，就会超出当前硬件的能力。

3、修改文件：。HDFS适合一次写入，多次读取的场景。对于上传到HDFS上的文件，不支持修改文件。Hadoop2.0虽然支持了文件的追加功能，但不建议对HDFS上的文件进行修改。因为效率低下.

4、不支持用户的并行写：同一时间内，只能有一个用户执行写操作。

易懂总结：1、不能做到低延迟数据访问： HDFS 针对一次性读取大量数据继续了优化，牺牲了延迟性。
2、不适合大量的小文件存储：
A:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存
容量。
B:每个文件、目录和数据块的存储信息大约占150字节。
由于以上两个原因，所以导致HDFS不适合大量的小文件存储
3、文件的修改；不适合多次写入，一次读取（少量读取）
4、不支持多用户的并行写。

4、hdfs的高级使用命令

目标：掌握HDFS对目录如何进行限制。

小哪吒的BD

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据入门——HDFS的特性

HDFS的特性目标：掌握HDFS具备的特性1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别或更高级别的数据存储。2、高容错性：数据保存多个副本，副本丢失后自动恢复。可构建在廉价的机器上，实现线性扩展。当集群增加新节点之后，namenode也可以感知，进行负载均衡，将数据分发和备份数据均衡到新的节点上。　　3、商用硬件：Hadoop并不需要运行在昂贵且高可靠的硬件上。它...
复制链接

扫一扫

专栏目录