Hadoop 实验 :二次排序

Hadoop 实验 :二次排序

一、 实验目的

  1. 进一步立即 MapReduce 思想
  2. 编写 SecondarySort 程序。

二、 实验要求
3. 要能理解 MapReduce 编程思想
4. 会编写 MapReduce 版本二次排序程序
5. 其执行并分析执行过程。

三、 实验原理
MR 默认会对键进行排序,然而有的时候我们也有对值进行排序的需求。满足这种
需求一是可以在 reduce 阶段排序收集过来的 values,但是,如果有数量巨大的 values 可
能就会导致内存溢出等问题,这就是二次排序应用的场景——将对值的排序也安排到
MR 计算过程之中,而不是单独来做。
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排
序,注意不能破坏第一次排序的结果。
**
实验步骤
编写代码:(分为两个类)
在编写Java中需导入lib包,lib包可在Hadoop中自己去拖下来。

IntPair类:
package com.company;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;
public class IntPair implements WritableComparable<IntPair>{
    private int first;
    private int second;
    public IntPair(){
    }
    public IntPair(int left, int right){
        set(left, right);
    }
    public void set(int left, int right){
        first = left;
        second = right;
    }
    @Override
    public void readFields(DataInput in) throws IOException{
        first = in.readInt();
        second = in.readInt();
    }
    @Override
    public void write(DataOutput out) throws IOException{
        out.writeInt(first);
        out.writeInt(second);
    }
    @Override
    public int compareTo(IntPair o)
    {
        if (first != o.first){
            return first < o.first ? -1 : 1;
        }else if (second != o.second){
            return second < o.second ? -1 : 1;
        }else{
            return 0;
        }
    }
    @Override
    public int hashCode(){
        return first * 157 + second;
    }
    @Override
    public boolean equals(Object right){
        if (right == null)
            return false;
        if (this &#
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值