Hadoop 教程 - Hadoop HDFS架构深入学习

用心去追梦

于 2024-06-26 11:38:45 发布

阅读量238

点赞数 3

文章标签： hadoop hdfs 架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/139985059

版权

Hadoop HDFS（Hadoop Distributed File System）是专为大规模数据处理设计的分布式文件系统，其架构设计旨在提供高容错性、高吞吐量的数据访问能力，适用于在低成本硬件上部署。以下是对HDFS架构的深入学习要点：

核心组件

NameNode:
- 角色: 负责管理文件系统的命名空间（namespace），包括目录、文件的创建、删除、重命名等操作，以及文件到数据块的映射信息。
- 存储: 不存储实际数据块，而是保存这些数据块的元数据信息，包括数据块的位置信息、副本信息等。
- 高可用: 通过NameNode Federation和HA（High Availability）配置来实现故障切换，确保服务的连续性。
DataNode:
- 角色: 实际存储数据块的节点，负责数据块的读写操作，并向NameNode定期发送心跳和块报告，以维持系统状态的更新。
- 数据块（Block）: HDFS将文件切分成固定大小的数据块，默认是128MB或更大，每个数据块会有多个副本（默认为3），存储在不同的DataNode上，以提高数据的可靠性和访问速度。
Secondary NameNode:
- 角色: 传统上，它不是NameNode的热备，而是一个辅助角色，帮助合并编辑日志和fsimage，减少NameNode的启动时间。但在Hadoop 2.x及之后的版本中，这部分功能被Checkpoint Node或使用NameNode HA取代。

副本放置策略

机架感知: HDFS在放置数据块副本时会考虑到机架信息，确保每个副本分布在不同的机架上，以减少因机架故障导致的数据不可用风险。
副本放置规则: 第一个副本放在写入数据的节点上（如果可能），第二个副本放在不同机架的节点上，第三个副本放在与第二个副本相同机架的不同节点上，以此类推，确保数据的分散性和可用性。

客户端交互

读取: 客户端首先向NameNode查询文件的元数据，然后直接与相关的DataNode建立连接进行数据读取，优化数据局部性以加快读取速度。
写入: 客户端先向NameNode请求写入，NameNode返回可以写入的DataNode列表，客户端直接向这些DataNode写入数据块，完成后通知NameNode写入完成。

安全与权限

HDFS支持安全性增强，如Kerberos认证和Hadoop安全模式（Hadoop Security），确保数据访问的安全性。

性能优化

缓存: 支持HDFS缓存服务，将热点数据缓存在内存中，加速数据访问。
块大小调整: 根据具体的工作负载调整数据块大小，以优化存储空间使用和读写性能。

结论

HDFS架构通过精细的设计和多种策略，如副本放置、机架感知、客户端直接与DataNode交互等，确保了大数据处理的高效性和可靠性。随着Hadoop生态系统的不断发展，HDFS也在持续演进，提供更多高级功能和优化，以满足更广泛的应用场景需求。

用心去追梦

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 教程 - Hadoop HDFS架构深入学习

Hadoop HDFS（Hadoop Distributed File System）是专为大规模数据处理设计的分布式文件系统，其架构设计旨在提供高容错性、高吞吐量的数据访问能力，适用于在低成本硬件上部署。
复制链接

扫一扫

用心去追梦 CSDN认证博客专家

CSDN认证企业博客

3316: 原创

5599: 周排名

214: 总排名

161万+: 访问

: 等级

5万+: 积分

1万+: 粉丝

1万+: 获赞

125: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

java: 程序包lombok不存在
阿J~: 太精辟了！竖起我的大拇指！
java 实现链接生成二维码
weixin_53371082: 生成的二维码有期限或者使用限制吗？
okhttp3.RequestBody.create(Ljava/lang/String；Lokhttp3/MediaType；)Lokhttp3/RequestBody； at com.alibab
小王毕业啦: 博主的这篇文章真是太有价值了！通过对"okhttp3.RequestBody.create(Ljava/lang/String；Lokhttp3/MediaType；)Lokhttp3/RequestBody； at com.alibab-CSDN博客"这个主题的深入分析，我对这个技术有了全新的认识。文章中的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待着博主未来能够持续分享更多类似的好文，同时也希望能够得到博主的指导，共同进步。再次感谢博主的无私分享和支持！
Ribbon和Feign的区别？
sinat_41703851: Ribbon通常与Spring Cloud中的其他组件（如Eureka、Hystrix等）一起使用，以实现服务的自动发现和负载均衡。 Ribbon是一个独立的开源项目，可以与其他Java框架一起使用，如Spring Boot和Spring MVC。这两者是不是有点矛盾
Kubernetes - 实战：Ingress
因为艾，所以爱: raw.githubusercontent.com 访问不了了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。