HADOOP学习连载：HDFS架构解读

最新推荐文章于 2020-11-05 14:40:54 发布

mozhw

最新推荐文章于 2020-11-05 14:40:54 发布

阅读量452

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hwjcmozw/article/details/43019307

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Hadoop分布式文件系统（HDFS）是为了存储海量数据，并为分布在网络中的大量客户端提供数据访问。

能够保存的数量在TB或者PB级，将数据散布在大量机器上，并且可靠地存储数据，使用数据复制方法。

高速流式读取，顺序读取，避免查找。

是一种块结构的文件系统。单个文件被拆分成固定大小的块，而这些块号村在HADOOP集群上。一个文件可以由多个块组成，这些块存储在不同的DataNode上。

NAMENODE将整个集群文件系统的所有元数据保存在内存中。

HDFS块默认的大小是64MB

HDFS文件组织的缺点是一个文件需要多个DataNode来提供服务，这意味着如果这些机器中任何一台失效的话，该文件就变得不可用。为了避免此问题，HDFS在多台机器上对该块进行复制。

HDFS中数据复制的实现是写操作的一部分，采用数据管道的形式。

客户端向HDFS文件写入数据--->本地文件---->累积到一整块-----> 请求NameNode保存块副本的DataNode列表----->以4KB数据块从本地写入首个DataNode---->写下个DataNode--->最后一个DataNode

如果某个DataNode失效，它将被从管道中移除，当前块写操作完成后，NameNode会重新复制该块，以补偿由于DataNode失效而造成的副本缺失。

NameNode 会周期性接收来自每个DataNode的心跳和块报告。心跳用于确保DataNode功能正常，而块报告可以验证DataNode上的块列表和NameNode中的信息是否一致。

HDFS数据复制的最重要特性叫做机架感知。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HADOOP学习连载：HDFS架构解读

Hadoop分布式文件系统（HDFS）是为了存储海量数据，并为分布在网络中的大量客户端提供数据访问。能够保存的数量在TB或者PB级，将数据散布在大量机器上，并且可靠地存储数据，使用数据复制方法。高速流式读取，顺序读取，避免查找。是一种块结构的文件系统。单个文件被拆分成固定大小的块，而这些块号村在HADOOP集群上。一个文件可以由多个块组成，这些块存储在不同的DataN
复制链接

扫一扫

专栏目录

mozhw CSDN认证博客专家 CSDN认证企业博客

码龄10年

31: 原创

11万+: 周排名

137万+: 总排名

8万+: 访问

: 等级

630: 积分

13: 粉丝

31: 获赞

2: 评论

181: 收藏

私信

关注

热门文章

分类专栏

clickhouse 2篇
flink 3篇
日志采集 2篇
davinci 1篇
datax 1篇
canal 1篇
azkaban 1篇
kafka 1篇
数据湖 1篇
hive 1篇
tez 1篇
delta lake 1篇
java 5篇
c/c++ 7篇
linu/unix 4篇
oracle 1篇
shell 3篇
perl
hadoop 7篇
进程间通信
Poco 4篇

最新评论

pxf部署
calvinsl: 请问你这有pxf-gp6-6.3.0-2.el7.x86_64.rpm 的包吗，我在官网没有找到
filebeat介绍
编程老哥: 这文章太好了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。