hadoop partitioner类加载分析

最新推荐文章于 2023-09-14 23:18:11 发布

Yohohaha

最新推荐文章于 2023-09-14 23:18:11 发布

阅读量271

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/Yohohaha/article/details/108538762

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在hadoop中，在map方法结束写出数据的时候需要对数据进行分区，具体分区实现由Partitioner类提供，而Partitioner类的加载逻辑如下：

partitions = jobContext.getNumReduceTasks();
if (partitions > 1) {
  // 设置的分区数（即reduce task的个数）大于1，则使用设置的分区类
  partitioner = (org.apache.hadoop.mapreduce.Partitioner<K,V>)
    ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);
} else {
  // 设置的分区数（即reduce task的个数）等于1，则生成一个只返回0的分区类
  partitioner = new org.apache.hadoop.mapreduce.Partitioner<K,V>() {
    @Override
    public int getPartition(K key, V value, int numPartitions) {
      return partitions - 1;
    }
  };
}