hadoop中运行mapreduce出现PipeMapRed错误排查
在执行mapreduce过程中发现此错误后进行排查,一般都是因为代码出现错误导致的,之前有过几次经验,将错误可能出现的地方列举出来:
1. run.sh检查
run.sh,可能执行过程中mapper_func写成mapper_fun,找不到此方法,也可能执行命令本地没有white_list,偏偏加一句white_list执行,都会出现此问题
# Step 1.
$HADOOP_CMD jar $STREAM_JAR_PATH \
-input $INPUT_FILE_PATH_1 \
-output $OUTPUT_PATH \
-mapper "python map.py mapper_fun white_list" \ #错误地方,正确做法,修改mapper_func
-reducer "python red.py reduer_func" \
-jobconf "mapred.reduce.tasks=3" \
-file ./map.py \
-file ./red.py \
-file ./white_list #可能出错误的地方,正确做法先看跑的任务,不需要时别乱添加
2. map.py和red.py检查
在执行map任务和red.py任务时,千万不要做打印语句,否则也会报类似错误
for line in sys.stdin:
ss = line.strip().split(' ')
for s in ss:
# time.sleep(100)
print "====" #可能出现错误的地方,正确做法注释
word = s.strip()
if word != "" and (word in word_set):
#print s + "\t" + "1"
#print '\t'.join([s, "1"])
print "%s\t%s" % (s, 1)
3.配置文件
hadoop中的hdfs.site.xml中出现的错误,所以此错误很有可能是配置文件出现的,这个例子说的不只只是hdfs.site.xml,也指的是所有的配置文件,包括master,slave各个节点,以及jps所起得节点是否正常,是否ssh正常。
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/src/hadoop-2.6.0/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/src/hadoop-2.6.0/dfs/data</value>
</property>
<property>
<name>dfs.repliction</name> #正确:replication 错误: repliction
<value>2</value>
</property>
</configuration>
4.ide编写问题
在用paycharm做mapreduce的过程中,写完代码后在终端执行,神奇的发现还报错,经过几个人测试时因为不合法字符导致的,所以还是乖乖用vim吧。
总结教训:出现此问题很可能是因为代码原因导致的,我们先逐个排查,当然最好是先看日志排查。
检查过程一般为,看日志 —检查代码及配置文件 — 文件权限 —– hadoop环境问题吧,
确定hadoop环境是否有问题,可以先跑一个能跑得mapreduce任务试试。