网上有很多帖子写一个简单的测试py文件,写好之后执行时有几个坑来记录一下。
hadoop2.7之后streaming文件的路径在$HADOOP_HOME/share/tools/lib
我执行hdfs dfs -ls /test/code/ 返回我的两个文件,并且我都给了777的权限。他依旧报错。需要在文件路径前面加上“hdfs:///” 声明文件路径。
执行命令:
hadoop jar hadoop-streaming-2.7.5.jar -files hdfs:///test/code/mapper_test01.py,hdfs:///test/code/reducer_test01.py -input /test/input/ -output /test/output/python_mapreduce_test01/ -mapper "python mapper_test01.py" -reducer "python reducer_test01.py"