1. 一般先尝试word_count实例程序,我用的python写的,如http://dongxicheng.org/mapreduce/hadoop-streaming-programming/所说的,不过要注意的是run.sh里面的配置条件:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-fb-0.20.1.9-streaming.jar\
-input /tmp/appollo/input\
-output /tmp/appollo/output \
-mapper cat \
-reducer wc
mapper.py,reducer.py和网页上一致。
2. scp ~/test/ root@192.168.1.111:/test/ 局域网内数据共享比较好用;
3. hadoop常用指令:
hadoop fs -put 文件夹 目标位置(如/tmp/appollo/input)
hadoop fs -mkdir
hadoop fs -ls
hadoop fs -rmr