- HDFS中数据流的读写
- HDFS的HA机制
- HDFS的Federation机制
HDFS中数据流的读写
什么是RPC?
RPC(Remote Procedure Call)——远程过程调用,是一种协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。
hadoop的整个体系结构就是构建在RPC之上的,Hadoop在其内部实现了一个基于IPC模型的RPC(见org.apache.hadoop.ipc)。因为hadoop内部采用了master/slave架构,那么其内部通信和与客户端的交互就是必不可少的了。
RPC实现流程
一个典型的RPC框架主要包括以下几个部分:
通信模块:两个相互协作的通信模块实现请求–应答协议。
代理程序:客户端和服务器端均包含代理程序。
调度程序:调度程序接受来自通信模块的请求消息,并根据其中的标志选择一个代理程序处理。
一个RPC请求从发送到获取处理结果,所经历的步骤如下:
1、客户程序以本地方式调用系统产生的Stub程序;
2、该Stub程序将函数调用信息按照网络通信模块的要求封装成消息包,并交给通信模块发送到远程服务器端;
3、远程服务器端接收到此消息后,将此消息发送给相应的Stub程序;
4、Stub程序拆封消息,形成被调过程要求的形式,并调用对应的函数;
5、被调用函数按照所获参数执行,并将结果返回给Stub程序;
6、Stub将此结果封装成消息,通过网络通信模块逐级地传送给客户程序;
Hadoop RPC基本框架
Hadoop RPC主要对外提供两种接口:
public static VersionedProtocol getProxy/waitForProxy(): 构造一个客户端代理对象(该对象实现了某种协议),用于向服务器端发送RPC请求;
public static Server getServer(): 为某个协议(实际上是Java接口)实例构造一个服务器对象,用于处理客户端发送的请求;
Hadoop RPC使用方法:
1、定义RPC协议。RPC协议是客户端和服务器端之间的通信接口,他定义了服务器端对外提供的服务接口。如以下代码所示,我们定义了一个ClientProtocol通信接口,他声明了两个方法:echo()和add()需要注意的是,hadoop中所有自定义RPC接口都需要继承VersionedProtocol 接口,他描述了协议的版本信息。
interface ClientProtocol extends org.apach.hadoop.ipc.VersionedProtocol {
//版本号。默认情况下,不同版本号的RPC Client和Server之间不能相互通信
public static final long versionID = 1L;
String echo(String value) throws IOException;
int add(int v1,int v2) throws IOException;
}
2、实现RPC协议。Hadoop RPC协议通常是一个Java接口,用户需要实现接口,如以下代码所示,对ClientProtocol接口进行简单的实现:
public static class ClientProtocolImpl implements ClientProtocol {
public long getProtocolVersion(String protocol , long clientVersion){
return ClientProtocol.versionID;
}
public String echo(String value) throws IOException