secondary sort

原创 2012年03月30日 14:13:54
class FirstPartitioner extends Partitioner<Text, MapWritable> {
    @Override
    public int getPartition(Text key, MapWritable value, int numPartitions) {
      String []allKey = key.toString().split("\t");
      if(allKey.length<2){
        throw new RuntimeException("key's indicator does not exist.");
      }
      String url = allKey[0];
      return Math.abs(url.hashCode()) % numPartitions;
    }


  }


   class KeyComparator extends WritableComparator {
    protected KeyComparator() {
      super(Text.class, true);
    }
    @Override
    public int compare(WritableComparable w1, WritableComparable w2) {
      Text ip1 = (Text) w1;
      Text ip2 = (Text) w2;
      int cmp = ip1.toString().split("\t")[0].compareTo(ip2.toString().split("\t")[0]);
      if (cmp != 0) {
        return cmp;
      }
      return -ip1.toString().split("\t")[1].compareTo(ip2.toString().split("\t")[1]); //reverse
    }
  }


  class GroupComparator extends WritableComparator {
    protected GroupComparator() {
      super(Text.class, true);
    }
    @Override
    public int compare(WritableComparable w1, WritableComparable w2) {
      Text ip1 = (Text) w1;
      Text ip2 = (Text) w2;
      return ip1.toString().split("\t")[0].compareTo(ip2.toString().split("\t")[0]);
    }
  }

Hadoop 之 Secondary Sort介绍

Hadoop 之 Secondary Sort介绍 --------------------------- 我们知道,在reduce之前,MP框架会对收到的对按K进行排序,而对于一个特定的K来说,...

Hadoop Map Reduce Secondary Sort

How to sort the value? Hadoop.The.Definitive.Guide.3rd.Edition show that answer: 1. Make the k...
  • wasaia
  • wasaia
  • 2014年05月27日 14:30
  • 419

Hadoop实现Secondary Sort (三)

一、背景 排序对于MR来说是个核心内容,如何做好排序十分的重要,这几天写了一些,总结一下,以供以后读阅。 二、准备 1、hadoop版本是0.20.2 2、输入的数据格式(这个很重要,看清楚格...

第三周第二题--基于Secondary Sort

思路:基于每个时段内的时长排序,可以理解为,基于key的二次排序,只不过这个key是一个对象,这个对象有两个私有属性,一个是imsi,一个是duration;二次排序就是指,第一次排序imsi,第二次...

Hadoop实现Secondary Sort(一)

Hadoop的MapReduce模型支持基于key的排序,即在一次MapReduce之后,结果都是按照key的大小排序的。但是在很多应用情况下,我们需要对映射在一个key下的value集合进行排序,即...

华为hbase二级索引(secondary index)细节分析

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了。其核心思想是...

路由配置:理解secondary ip address

原文《http://www.233.com/cisco/ccna/20070826/100602899.html》 为端口设置一个IP地址,在端口设置状态下   ip address 本端口I...

如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复

第一部分: 如何设置Secondary NameNode节点(单独的)   1. 在masters文件中添加 Secondary节点的主机名。    2.  修改hdfs-de...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:secondary sort
举报原因:
原因补充:

(最多只允许输入30个字)