Hadoop之HDFS(三)

最新推荐文章于 2022-06-10 08:28:27 发布

乱弹_

最新推荐文章于 2022-06-10 08:28:27 发布

阅读量363

点赞数

本文链接：https://blog.csdn.net/pinglanyinjiu/article/details/73382192

版权

网络七层协议：

OSI是一个开放性的通信系统互连参考模型，他是一个定义得非常好的协议规范。OSI模型有7层结构，每层都可以有几个子层。

OSI的7层从上到下分别是 7 应用层 6 表示层 5 会话层 4 传输层 3 网络层 2 数据链路层 1 物理层；

其中高层（即7、6、5、4层）定义了应用程序的功能，下面3层（即3、2、1层）主要面向通过网络的端到端的数据流。

http://baike.baidu.com/

各层功能

应用层

与其它计算机进行通讯的一个应用，它是对应应用程序的通信服务的。例如，一个没有通信功能的字处理程序就不能执行通信的代码，从事字处理工作的程序员也不关心OSI的第7层。但是，如果添加了一个传输文件的选项，那么字处理器的程序员就需要实现OSI的第7层。示例：TELNET，HTTP，FTP，NFS，SMTP等。

表示层

这一层的主要功能是定义数据格式及加密。例如，FTP允许你选择以二进制或ASCII格式传输。如果选择二进制，那么发送方和接收方不改变文件的内容。如果选择ASCII格式，发送方将把文本从发送方的字符集转换成标准的ASCII后发送数据。在接收方将标准的ASCII转换成接收方计算机的字符集。示例：加密，ASCII等。

会话层

它定义了如何开始、控制和结束一个会话，包括对多个双向消息的控制和管理，以便在只完成连续消息的一部分时可以通知应用，从而使表示层看到的数据是连续的，在某些情况下，如果表示层收到了所有的数据，则用数据代表表示层。示例：RPC，SQL等。

传输层

这层的功能包括是否选择差错恢复协议还是无差错恢复协议，及在同一主机上对不同应用的数据流的输入进行复用，还包括对收到的顺序不对的数据包的重新排序功能。示例：TCP，UDP，SPX。

网络层

这层对端到端的包传输进行定义，它定义了能够标识所有结点的逻辑地址，还定义了路由实现的方式和学习的方式。为了适应最大传输单元长度小于包长度的传输介质，网络层还定义了如何将一个包分解成更小的包的分段方法。示例：IP，IPX等。

数据链路层

它定义了在单个链路上如何传输数据。这些协议与被讨论的各种介质有关。示例：ATM，FDDI等。

物理层

OSI的物理层规范是有关传输介质的特这些规范通常也参考了其他组织制定的标准。连接头、帧、帧的使用、电流、编码及光调制等都属于各种物理层规范中的内容。物理层常用多个规范完成对所有细节的定义。示例：Rj45，802.3等。

分层优点

编辑

（1）人们可以很容易的讨论和学习协议的规范细节。

（2）层间的标准接口方便了工程模块化。

（3）创建了一个更好的互连环境。

（4）降低了复杂度，使程序更容易修改，产品开发的速度更快。

（5）每层利用紧邻的下层服务，更容易记住各层的功能。

大多数的计算机网络都采用层次式结构，即将一个计算机网络分为若干层次，处在高层次的系统仅是利用较低层次的系统提供的接口和功能，不需了解低层实现该功能所采用的算法和协议；较低层次也仅是使用从高层系统传送来的参数，这就是层次间的无关性。因为有了这种无关性，层次间的每个模块可以用一个新的模块取代，只要新的模块与旧的模块具有相同的功能和接口，即使它们使用的算法和协议都不一样。

网络中的计算机与终端间要想正确的传送信息和数据，必须在数据传输的顺序、数据的格式及内容等方面有一个约定或规则，这种约定或规则称做协议。

RPC:（远程过程调用协议 Remote Procedure Call Protocol ）

RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

简单来说：为一个进程提供了访问其他进程服务的方法，获取其他进程服务方法计算结果的能力，这些进程往往处于不同的计算机。

Hadoop底层的交互都是通过 rpc进行的。例如：datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的，Hadoop RPC使用Java动态代理与反射实现对象调用方式，客户端到服务器数据的序列化与反序列化由Hadoop框架或用户自己来实现，也就是数据组装是定制的，Hadoop 2.0中存在两个ipc包, 分别在hadoop-common和hadoop-yarncommon项目下. 分别为hadoop RPC和新的YarnRPC. hadoop-common RPC的序列化方式: rpc.engine.( protocol.getName()) 默认为WritableRpcEngine，yarnRPC的底层序列化方式: yarn. ipc. serializer.type 默认为protocolbuffers

RPC的基本流程

（1）RPC采用了C/S的模式；

　　（2）Client端发送一个带有参数的请求信息到Server；

　　（3）Server接收到这个请求以后，根据发送过来的参数调用相应的程序，然后把自己计算好的结果发送给Client端；

　　（4）Client端接收到结果后继续运行；

　同其他RPC框架一样，Hadoop RPC分为四个部分：

　　（1）序列化层：Clent与Server端通信传递的信息采用了Hadoop里提供的序列化类或自定义的Writable类型；

　　（2）函数调用层：Hadoop RPC通过动态代理以及java反射实现函数调用；

　　（3）网络传输层：Hadoop RPC采用了基于TCP/IP的socket机制；

　　（4）服务器端框架层：RPC Server利用java NIO以及采用了事件驱动的I/O模型，提高RPC Server的并发处理能力；

　　Hadoop RPC在整个Hadoop中应用非常广泛，Client、DataNode、NameNode之间的通讯全靠它了。例如：我们平时操作HDFS的时候，使用的是FileSystem类，它的内部有个DFSClient对象，这个对象负责与NameNode打交道。在运行时，DFSClient在本地创建一个NameNode的代理，然后就操作这个代理，这个代理就会通过网络，远程调用到NameNode的方法，也能返回值

简单来说，（Hadoop RPC = 动态代理 + 定制好的二进制流），（反射---动态加载类，序列化，非阻塞的异步IO（NIO））

Hadoop RPC对外主要提供了两种接口（见类org.apache.hadoop.ipc.RPC），分别是：

　　（1）public static <T> ProtocolProxy <T> getProxy/waitForProxy(…)

　　构造一个客户端代理对象（该对象实现了某个协议），用于向服务器发送RPC请求。

　　（2）public static Server RPC.Builder (Configuration).build()

　　为某个协议（实际上是Java接口）实例构造一个服务器对象，用于处理客户端发送的请求

Hadoop中所有自定义RPC接口都需要继承VersionedProtocol接口，它描述了协议的版本信息

http://blog.csdn.net/koushr/article/details/51391859

http://book.51cto.com/art/201312/422043.htm