hadoop 二次排序

最新推荐文章于 2017-07-22 15:57:04 发布

modiziri

最新推荐文章于 2017-07-22 15:57:04 发布

阅读量849

点赞数

分类专栏： Python

Python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

　　KeyFieldBasedPartitioner是Hadoop库中的一个实用Partitioner，配置相应的参数就可以使用，通过KeyFieldBasedPartitioner可以方便地实现二次排序。　

系统默认分隔符为\t，所以不需要重新定义，且shell不支持直接写\t，要用^I的形式，不然分隔符就真的是“\t”!!!

所以，如果\t分隔符不需要重新定义！！！！

　　 $HADOOP_HOME/bin/hadoop streaming \

-D stream.map.output.field.separator=. \

-D stream.num.map.output.key.fields=4 \

-D map.output.key.field.separator=. \

-D num.key.fields.for.partition=2 \

　　 -input /user/test/input -output /user/test/output \

　　 -mapper “mymapper.sh” -reducer “ myreducer.sh” \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-file /home/work/mymapper.sh \

-file /home/work/myreducer.sh \

-jobconf mapred.job.name=”key-partition-demo”

　　其中-Dstream.map.output.field.separator=.和-D stream.num.map.output.key.fields=4与上面的定制输出数据分隔方式意义相同，指定map的输出行第4个英文句号”.”之前为key，后面为value。-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner指定使用KeyFieldBasedPartitioner，-D map.output.key.field.separator=.指定key的内部用英文句号”.”分隔，-D num.key.fields.for.partition=2指定将key分隔出来的前两个部分而不是整个key用于Partitioner做partition。

这里就是使用第一个+号来做key的分割，如果只有一个+符号就只能写1，有多个+才能用后面的来分割。不然就完全没用了！

      -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
      -jobconf map.output.key.field.separator='+' \
      -jobconf num.key.fields.for.partition=1 \

modiziri

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop 二次排序

KeyFieldBasedPartitioner是Hadoop库中的一个实用Partitioner，配置相应的参数就可以使用，通过KeyFieldBasedPartitioner可以方便地实现二次排序。　　　 $HADOOP_HOME/bin/hadoop streaming \ -D stream.map.output.field.separator=.
复制链接

扫一扫