Hadoop 和 HDFS 之间的关系与原理

hxsln11

于 2024-08-05 21:43:23 发布

阅读量467

点赞数 4

文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxsln11/article/details/140937748

版权

Hadoop 和 HDFS 的概念

Hadoop：是一个用于存储、处理大数据的开源软件框架。它提供了分布式存储（HDFS）和分布式处理（MapReduce）两种核心功能。
HDFS（Hadoop Distributed File System）：是 Hadoop 的分布式文件系统，专为存储海量数据而设计。它将数据分成块，存储在多个节点上，从而实现高容错性和高可扩展性。

两者之间的关系

Hadoop 和 HDFS 的关系就好比电脑和硬盘。Hadoop 是整个计算机系统，提供了运行各种应用程序的环境；而 HDFS 则是这个计算机系统中的硬盘，负责存储数据。

更具体地说，Hadoop 为 HDFS 提供了一个运行的环境，而 HDFS 则为 Hadoop 提供了存储数据的底层支持。Hadoop 的其他组件（如 MapReduce、YARN）都依赖于 HDFS 来存储数据。

HDFS 的主要特点

高容错性： 数据被复制成多个副本，存储在不同的节点上，即使部分节点故障，数据也不会丢失。
高可扩展性： 可以动态地增加或减少集群中的节点，以适应不断增长的数据量。
适合大文件： HDFS 擅长存储大文件，对于小文件，性能可能不是最佳。
一次写入多次读取： HDFS 文件通常是一次写入多次读取的，不适合频繁修改。

HDFS 的工作原理

NameNode: HDFS 的主节点，负责管理文件系统的命名空间，维护文件目录树，以及客户端的元数据操作。
DataNode: HDFS 的从节点，负责存储数据块，执行块数据的读写操作。
客户端: 客户端通过 NameNode 找到数据块的存储位置，然后直接从 DataNode 读取或写入数据。

HDFS 的优势

高可用性： 通过副本机制和 NameNode 高可用性保证数据的可靠性。
高扩展性： 可以轻松地扩展集群规模，以满足不断增长的数据存储需求。
高吞吐量： 适合大规模数据的并行处理。
低成本： 可以运行在通用硬件上，降低了硬件成本。

总结

Hadoop 和 HDFS 是紧密结合的两个组件。HDFS 是 Hadoop 的基础，为 Hadoop 提供了可靠、可扩展的分布式存储。Hadoop 的其他组件则利用 HDFS 来存储和处理数据。

形象比喻：

Hadoop 可以看作是一个大型的图书馆，而 HDFS 则是这个图书馆中的书架。
Hadoop 是一个分布式计算平台，而 HDFS 是这个平台的数据仓库。

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄12年

581
原创

4325
点赞

3777
收藏

3060
粉丝

关注

私信

热门文章

分类专栏

最新评论

hadoop 3.1.3 官方学习地址 p42
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
自学了一段时间快忘记了
m0_54805253: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
p34_日志聚集功能总结
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop 3.1.3 官方学习地址 p42
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
安装GCC-8.3.0及其依赖
hxsln11: 我也不是很懂我摘录的

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。