Hadoop中NameNode、DataNode和Client三者之间的通信方式是什么?怎样进行合作?

一直没有重视三者之间的通信问题,在此整理一下提问:datanode之间有没有交互?Hadoop安装时为什么进行ssh配置?

1.背景知识:

在HDFS系统中,一定要区分好什么是主节点、从节点和客户端。

需要清楚,只要你在集群里面的任何一个节点执行诸如 hdfs dfs -ls / 之类的命令操作,那么你就使用的是主节点或者从节点,否则你使用的就是客户端。注意,客户端没有包括在Hadoop集群之中。在学习Hadoop之初经常不知道这种问题。

2.通信方式简单地讲:
client和namenode之间是通过rpc通信;
datanode和namenode之间是通过rpc通信;
client和datanode之间是通过简单的socket通信;

datanode在MapReduce任务执行时,由于一行数据可能分布在两个数据块上,所以可能会从其他datanode进行读取数据信息,所以datanode之间有通信,通过rpc进行。

RPC通信是一种高可用的通信方式,由于没有过多涉及网络通信的方式,请读者自行百度。呵呵。。。

3.Hadoop安装时为什么进行ssh配置?

Hadoop在执行诸如start-dfs.sh或者start-yarn.sh命令时,我们会从主节点执行上述两条命令,然后主节点会通过ssh通信,登录到从节点执行相关的hadoop-damen.sh start datanode之类的工作,然后之后namenode向datanode发送数据块以及datanode向namenode发送心跳等一系列问题都是通过rpc进行的。所以,要进行ssh免密码登录配置。

另外,ssh配置时,ssh公钥只需要将namenode的公钥拷贝到datanode上即可如果不需要datanode免密码登录namenode则不需要将datanode的公钥拷贝到namenode。

参考我的另一篇文章:ssh免密码登录的原理


4.读写解析:

以hdfs文件读写为例:

A.图示:

B.  NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。

C.文件写入
    Client向NameNode发起文件写入的请求。
    NameNode根据文件大小和文件块配置情况,返回给Client应该向哪一个DataNode写入数据。
    Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

D.文件读取
    Client向NameNode发起文件读取的请求。
    NameNode返回文件存储的DataNode的信息。
    Client读取文件信息。

注意,在这4个过程中,namenode自身并没有进行任何关于实际数据的读写操作,只是将数据的信息(包括块的位置、块的大小)进行保存和展示。

感谢您阅读我的博客,由于作者水平有限,错漏缺点在所难免,希望得到您的批评指正,祝您工作如意,学习顺利!

############################################################

转载请注明出处,谢谢!原文地址:

############################################################

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值