在Hadoop 2.3上运行C++程序各种疑难杂症（Hadoop Pipes选择、错误集锦、Hadoop2.3编译等）

最新推荐文章于 2021-11-14 22:58:15 发布

小敏纸

最新推荐文章于 2021-11-14 22:58:15 发布

阅读量4.4k

点赞数 5

分类专栏： Hadoop 文章标签： hadoop c++ pipes natvie library 大数据

本文链接：https://blog.csdn.net/lanxuezaipiao/article/details/23026369

版权

本文记录了在Hadoop 2.3环境中配置和运行C++程序的挑战，包括选择Hadoop Pipes、环境配置、编译本地库时遇到的问题及解决方法。作者在尝试Hadoop Pipes时，遇到了因系统环境差异导致的错误，通过克隆虚拟机和编译Hadoop 2.3的Native Library解决了问题。

摘要由CSDN通过智能技术生成

首记

感觉Hadoop是一个坑，打着大数据最佳解决方案的旗帜到处坑害良民。记得以前看过一篇文章，说1TB以下的数据就不要用Hadoop了，体现不出太大的优势，有时候反而会成为累赘。因此Hadoop的使用场所一般有两：一是有一定规模的公司，数据流一般是TB级别的，这样的公司其实不多；二是各大高校的实验室，作为研究使用。不幸的我也走上了这条路，仅为研究之用。而且我的使用需求还不是一般的在Hadoop下开发应用程序，而是开发好的C++程序要放到Hadoop平台下进行测试。Hadoop是基于Java的数据计算平台，当然对Java支持的最好，如果要运行C++程序，有三种解决方案：

使用JNI/JNA/JNR技术。这三种Java外部函数接口技术都是解决在Java程序中运行C++功能函数的需求，从而使得在Hadoop平台下开发Java程序且能调用C++函数完成在Hadoop Java版应用中运行C++程序的目的。早期（大概11年）阿里就是使用该技术将C语言实现的分词软件成功部署到Hadoop平台下运行，详情请看参考资料1。用过JNI的都知道JNI实在不好用，所以后来有人开发了另外两种Java外部函数接口，即JNA和JNR，具体介绍和使用实例请看参考资料2和参考资料3。
使用Hadoop Streaming技术。这项技术可以使得除了Java之外的多种其它语言如C/C++/Python/C#甚至shell脚本等运行在Hadoop平台下，程序只需要按照一定的格式从标准输入读取数据、向标准输出写数据就可以在Hadoop平台上使用，原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理。
使用Hadoop Pipes技术。该技术只专注于在Hadoop平台下运行C++程序，只允许用户使用C++语言进行MapReduce程序设计。它采用的主要方法是将应用逻辑相关的C++代码放在单独的进程中，然后通过Socket让Java代码与C++代码通信。从很大程度上说，这种方法类似于Hadoop Streaming，不同之处是通信方式不同：一个是标准输入输出，另一个是socket。

对于这三种技术我都做了相关调研和比较分析，首先排除了方法1，因为我不想写Java程序来调用C++功能，有些累赘，调试非常不方便，那么是用Hadoop Streaming技术还是Hadoop Pipes技术呢？两种方式各有优缺点，具体可看参考资料4（说的不太准确，仅供参考），为了准确选择，我需要将两种方法都试验一下，看哪个适合自己的需求再做最终决定。

首先选择了仅专注C++的Hadoop Pipes技术，于是就开启了下面一系列的过程……

Hadoop 2.3环境配置安装

我之前配置过Hadoop环境（看参考资料5），但那时用的版本是1.1.2，比较老的版本，一堆bug，为了避免遗留bug的困扰我选择了最新版2.3，因此需要重新配置（主要借鉴参考资料6），由于2.3版本使用的是新MapReduce框架yarn，因此配置与之前有所差异。

配置成功后，用自带的经典案例wordcount测试下运行是否正常（已上传数据）：

hadoop jar ./hadoop-2.3.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar wordcount wc_input.txt out

结果出现了下面错误：

 
 
 
  
  
  2014-04-03 21:19:40,847 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
 
 
 
 
 
 
  
  
  org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.ConnectException: Call From Slave1/192.168.1.152 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:185)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:199)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:354)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:401)
 
 
 
 
 
 
  
  
  Caused by: java.net.ConnectException: Call From Slave1/192.168.1.152 to 0.0.0.0:8031 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
 
 
 
 
 
 
  
  
   at sun.reflect.GeneratedConstructorAccessor8.newInstance(Unknown Source)
 
 
 
 
 
 
  
  
   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
 
 
 
 
 
 
  
  
   at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:783)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:730)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client.call(Client.java:1410)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client.call(Client.java:1359)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:206)
 
 
 
 
 
 
  
  
   at com.sun.proxy.$Proxy23.registerNodeManager(Unknown Source)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.api.impl.pb.client.ResourceTrackerPBClientImpl.registerNodeManager(ResourceTrackerPBClientImpl.java:68)
 
 
 
 
 
 
  
  
   at sun.reflect.GeneratedMethodAccessor2.invoke(Unknown Source)
 
 
 
 
 
 
  
  
   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
 
 
 
 
 
 
  
  
   at java.lang.reflect.Method.invoke(Method.java:606)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:186)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
 
 
 
 
 
 
  
  
   at com.sun.proxy.$Proxy24.registerNodeManager(Unknown Source)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:247)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:179)
 
 
 
 
 
 
  
  
   ... 6 more
 
 
 
 
 
 
  
  
  Caused by: java.net.ConnectException: Connection refused
 
 
 
 
 
 
  
  
   at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
 
 
 
 
 
 
  
  
   at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:708)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:529)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:493)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:601)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:696)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client$Connection.access$2700(Client.java:367)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client.getConnection(Client.java:1458)
 
 
 
 
 
 
  
  
   at org.apache.hadoop.ipc.Client.call(Client.java:1377)
 
 
 
 
 
 
  
  
   ... 18 more

是连接拒绝问题，连接了“0.0.0.0:8031”这个地址，这显然是某个选项没配置连接地址，导致使用了默认的错误地址。经过查资料，是 yarn-site.xml文件没配置好，其中的yarn.nodemanager.address没有配置，默认是0.0.0.0。正确的配置如下（可能有些项不需要配置，但为了保险还是大部分都配置了）

<configuration>
 
 
 
  
  
  <property>
 
 
 
 
 
 
  
  
  　　<name>yarn.resourcemanager.address</name>
 
 
 
 
 
 
  
  
  　　<value>192.168.1.137:8032</value>
 
 
 
 
 
 
  
  
  </property>
 
 
 
 
 
 
  
  
  <property>
 
 
 
 
 
 
  
  
  　　<name>yarn.resourcemanager.scheduler.address</name>
 
 
 
 
 
 
  
  
  　　<value>192.168.1.137:8030</value>
 
 
 
 
 
 
  
  
  </property>