如何在Hadoop集群运行JNI程序

最新推荐文章于 2021-02-15 19:48:01 发布

shenyan008

最新推荐文章于 2021-02-15 19:48:01 发布

阅读量803

点赞数

分类专栏：分布式

分布式专栏收录该内容

23 篇文章 0 订阅

订阅专栏

如何在Hadoop集群运行JNI程序

hadoop是基于java的数据计算平台，引入第三方库，例如C语言实现的开发包将会大大增强数据分析的效率和能力。阿里巴巴内部使用的分词软件（用c++实现的，以下简称WS包）是日常工作中最基本的软件包，通过java的jni机制，笔者将WS包成功的运行在hadoop上，深受很多部门的欢迎。下面借这个例子介绍hadoop上jni程序的开发过程。

首先，简单介绍一下WS包中的调用接口和基本结构。 WS包包括词典文件A.dict，对外提供静态链接库文件libWS.a。WS.h如下:

 
             Class WS{  
            
             int init(const  char* name);  
            
             int segment(char* dest, char* src,  int len,int kind);  
            
             }

我们的方案是首先生成jni的原型定义，然后根据原型定义，来包装WS类的接口，最后生成可在tasknode上运行的jni程序包。结构如下图所示

第一步，我们先使用java的jni技术，生成C的原型接口(prototype)，然后编写Wsjni.java 文件，这是为云梯程序提供的类文件，其中libwsjni.so 就是wrapper类的动态链接库:

 
             Class Wsjni{  
            
             Public Native int init(String conf);  
            
             Public Native String segment(String src,int kind);  
            
             Public Native void close();   //用于显示的释放内存  
            
             Static{  
            
             System.LoadLibrary(“libwsjni.so”); //  load 链接库  
            
             }  
            
             }

 
             javac -d class Wsjni.java  //产生class文件   
            
             javah -classpath ./class ws.Wsjni  //这样就可以生成C的原型接口头文件Wsjni.h

Wsjni.h里面的有函数的原型声明，例如:

1	`JNIEXPORT jint JNICALL Java_ws_Wsjni_ws_1init__Ljava_lang_String_2(JNIEnv *, jobject, jstring);`

第二步，根据Wsjni.h实现wrapper类。需要阅读sun公司编写的jni的规范来实现应用，具体不在这里赘述。在Makefile中链接静态库libWs.a，从而生成一个动态的链接库libwsjni.so ，

1	`g++ -g -o ./class/libwsjni.so -fPIC -shared -Wl,-soname,./class/libWsjni.so ws_Wsjni.cpp –I./include` `-Wl,-Bstatic –lWs –L./lib/` `-Wl,-Bdynamic`

我们的wrapper类就写好了。我们可以通过java的程序来测试验证jni是否正确。

 
             Import Wsjni;  
            
             Class Test{  
            
             Public static void main(){  
            
             Wsjni ws=new Wsjni();  
            
             Ws.init(“taobao.conf”);  
            
             Ws.segment(“你好淘宝”,1);  
            
             Ws.close();  
            
             }  
            
             }

运行命令是

1	`java –cp` `./class` `–D java.liabray.path=./class` `Test`

为了在hadoop上运行Ws包，需要制作两个jar包，一个是wsjni.jar, 通过-libjar选项提供class文件; 一个用于hadoop集群运行，ws.jar里面放了Ws包运行时需要的资源文件，包括链接库和词典文件。
Wsjni.jar中的文件是:

1	`./ Wsjni.class`

Ws.jar 中的文件是:

 
             ./A.dict  
            
             ./libwsjni.so

第三步，在hadoop上调用Wsjni。hadoop有很特殊的文件系统，这里笔者针对性介绍一下DistributeCache的机制。Hadoop可以将HDFS的一些文件分发到运行的某台机器的工作目录下，并按照一定的逻辑解压。通过以下API实现:

1	`DistributedCache.addCacheArchive(“hdfs://file_path/ws.jar#ws”,conf);`

上面的API将ws.jar分发到tasknode上，并解压到工作目录的link目录下。Ws.jar包含ws相关的资源文件。在tasknode上，每个task工作目录下的文件是:

 
             Jars/  
            
             Jars/yourJob.cass  
            
             ws/  
            
             ws/A.dict  
            
             ws/libwsjni.so

这样的目录结构，使得程序访问文件的路径一目了然，当调用者需要调用WS的接口时，词典A.dict和libwsjni.so 都在./ws 目录下。

因此，调用者的代码如下：

 
             Mapper(){  
            
             Wsjni  wsjni=new Wsjni();  
            
             Public void configure( ){  
            
             Wsjni.init("./ws/taobao.conf”,1);  
            
             }  
            
             Public mapper(){  
            
             Wsjni.segment(sentence,2);  
            
             }  
            
             Public close(){  
            
             Wsjni.close();  
            
             }  
            
             }  
            
             Run(){  
            
             Jobconf.set(“java.library.path”,”./ws”);  
            
             DistributedCache.addCacheArchive(“hdfs://file_path/ws.jar#ws”,conf);  
            
             }