使用Hadoop流进行MapReduce时出现subprocess failed with code 2 No such file or dictionary时的解决方式

最新推荐文章于 2023-04-15 08:49:50 发布

Xavier-Lam

最新推荐文章于 2023-04-15 08:49:50 发布

阅读量3.6k

点赞数 1

分类专栏： Python 文章标签： hadoop python mapreduce

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参加大数据竞赛时使用Python + Hadoop 进行MapReduce 遇到该问题在stackoverflow上找到了解决方式和大家分享一下

原文地址：http://stackoverflow.com/questions/4460522/hadoop-streaming-job-failed-error-in-python

错误的是这样的

ava.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:311)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:545)
at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:132)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:57)
at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:36)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:358)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307)
at org.apache.hadoop.mapred.Child.main(Child.java:170)

Hadoop流的使用方法

hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar -input /data/train/transformData/* -output /user/teamXXX/output/test -mapper "MapTest.py" -reducer "ReduceTest.py" -file MapTest.py -file ReduceTest.py

遇到这个问题原文指出了三种解决方案

1.在-mapper和-reducer 后跟的文件名加上双引号

2.确保你的map和reduce文件有执行权限:chmod a+x MapTest.py

3.打开map和reduce文件在他们的头部加上"#!/usr/bin/env python"(我的问题应该是这个) 如果是ruby就把python改成ruby 以此类推