hadoop HDFS 笔记

最新推荐文章于 2022-06-21 18:52:29 发布

闻DD

最新推荐文章于 2022-06-21 18:52:29 发布

阅读量255

点赞数

分类专栏： java 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deepexpert_wendongdi/article/details/52093501

版权

java 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

从 HDFS 分布式存储器的视角：

HDFS采用主从（Master/Slave）结构模型

HDFS有两种节点：一个(或多个)NameNode和多个DataNode。

NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。记录文件的每个块所在的DataNode

DataNode管理存储的数据。

我们用读写文件的流程来看Namenode和Datanode是怎么协作完成工作的

读文件

1.客户端通过分布式文件系统的一个实例来打开文件
2.分布式文件系统通过使用RPC调用名称节点，名称节点返回该文件的部分或全部块列表
3.分布式文件系统返回一个FS数据输入流给客户端读取数据
4.和离文件开头块最近的数据节点连接。数据从数据节点返回客户端。关闭连接。
5.为下一个块找到最近的数据节点
6.客户端完成读取，关闭输入流。

写文件

在写入数据时，DFS输出流将数据分包，写入数据队列。
数据节点的列表称为管线，数据流要求管线里的节点为数据的副本分配新的块。数据流将包分给管线中的第一个数据节点，第一个数据节点存储包并发送给下一个节点……
DFS输出流也有一个确认队列，在一个包被所有节点确认后路才会把他移除确认队列
处理数据队列的下一个包……
最后让名称节点知道文件是由哪些块组成的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop HDFS 笔记

分布化：两种节点控制作业的执行过程：jobtracker和tasktracker：job通过调度任务在task上运行，来协调所有运行在系统上的作业，task运行任务的同时，把进度报告传送到job，job记录每项任务的整体进程。如果其中一个任务失败了，job可以重新调度任务到另一个task分片：将输入数据划分成等量的小数据，hadoop为每个分片创建一个map任务分片
复制链接

扫一扫

专栏目录

闻DD CSDN认证博客专家 CSDN认证企业博客

码龄10年

40: 原创

26万+: 周排名

170万+: 总排名

4万+: 访问

: 等级

863: 积分

8: 粉丝

4: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

分类专栏

python 28篇
java 7篇

最新评论

第六周编程任务学习过程
hao1231791: 好！我学到了好多！受益匪浅！感谢东哥深深教诲！你数数看是不是正好15字

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。