HDFS架构详解

最新推荐文章于 2022-12-29 11:02:50 发布

WQ同学

最新推荐文章于 2022-12-29 11:02:50 发布

阅读量1.4k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012957549/article/details/86568455

版权

hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

一.HDFS来源

源自于google 的GFS论文，全名Hadoop Distributed File System
主要有下面几个特点

易于扩展的分布式文件系统
运行在大量的普通廉价的机器上，提供容错机制
为大量用户提供性能不错的文件存储服务

二.NameNode

namenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的命名空间（name space），以及客户端对文件的访问，
文件操作：NameNode 负责对元数据的操作，DataNode 负责处理文件的读写请求，根文件内容相关的数据流不走NameNode，只会询问他和那个NameNode 联系，否则NameNode 会成为整个系统的瓶颈。
副本存放在那个DataNode 由NameNode 来决定根据全局情况作出块放置决定，读取文件时NameNode 尽量让用户先读取最近的副本降低块消耗和读取延时。
NameNode 全权管理数据块的复制，他周期从集群中每个DataNode 接收心跳信号和块状态报告接收到心跳信号意味着该DataNode 节点正常工作。块状态报告包含了一个该DataNode 上所有数据块的列表

三.DataNode

一个数据块在DataNode以文件存储在磁盘上，包括两个文件一个是数据本身，一个时元数据和数据块长度，块数据校验以及时间戳
DataNode 启动后定期的向NameNode 进行注册通过后，周期的向NameNode 发送块数据信息
心跳是3秒一次，心跳返回结果带有NameNode 给这个DataNode的命令如复制块数据复制到另一台机器上或者删除某个快，如果超过10分钟没有收到心跳信息则视为该DataNode不可用
集群中可以安全退出和加入一些机器

四.文件

文件默认切块（默认128M），以块为单位每个块有多个复制本存储在不同的机器上，副本数可以在文件创建的时候生成制定
NameNode 是主节点存储文件的元数据，如文件名文件目录结构，文件属性（生成时间，副本数，文件权限）以及每个文件的块列表和块所在的DataNode等等
DataNode 可以在本地文件系统存储数据以及块数据校验。
可以创建、删除、移动和重命名文件当文件创建写入和关闭之后不能修改文件内容

五.数据损坏处理

当DataNode 读取block的时候他会计算checksum
如果计算后的checksum和创建时的block不一致说明文件已经损坏
client 读其他DataNode 上面的block
DataNode 标记该块已经损坏，然后复制block达到预期设置的文件备份数
DataNode 在文件创建后三周后验证其checkSum

欢迎关注，更多福利

这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS架构详解

一.HDFS来源源自于google 的GFS论文，全名Hadoop Distributed File System主要有下面几个特点易于扩展的分布式文件系统运行在大量的普通廉价的机器上，提供容错机制为大量用户提供性能不错的文件存储服务二.NameNodenamenode 是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的命名空间（name space），以及...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。