hadoop streaming - example

#!/bin/sh

EXECPATH=`pwd` 
HPHOME=/home/hadoop/hadoop-0.20.2-cdh3u0/bin/
JAR_PACKEGE=/home/hadoop/hadoop-0.20.2-cdh3u0/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar

IN_PATH=/online/visit_urls/$1*/$2*
OUT_PATH=/user/rendonghui/itg/time_online/$1_$2
echo $IN_PATH, $OUT_PATH
MAP_FILE=$EXECPATH/map.py
RED_FILE=$EXECPATH/red.py
FILE1=$EXECPATH/host_list
FILE2=$EXECPATH/transtime.py
echo $MAP_FILE, $RED_FILE
${HPHOME}hadoop fs -rmr $OUT_PATH

${HPHOME}hadoop jar $JAR_PACKEGE \
        -D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
        -D stream.num.map.output.key.fields=2 \
        -D num.key.fields.for.partition=1 \
        -D mapred.text.key.comparator.options="-k1,1n -k2" \
        -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
        -inputformat org.apache.hadoop.mapred.SequenceFileAsTextInputFormat \
        -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat \
        -numReduceTasks 100 \
        -input $IN_PATH \
        -output $OUT_PATH \
        -file $FILE1 \
        -file $FILE2 \
        -file $MAP_FILE \
        -mapper $MAP_FILE \
        -file $RED_FILE \
        -reducer $RED_FILE \
        -jobconf mapred.job.queue.name=bi \
        -jobconf mapred.job.name=$1_$2_time_online

#-D num.key.fields.for.partition=1 \
#sh job_stat.sh $2
#${HPHOME}hadoop fs -text $OUT_PATH/p*|python ana.py >output/time_$2.csv



转载于:https://my.oschina.net/u/1778317/blog/269657

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值