hadoop-自定义分组求取topN

最新推荐文章于 2023-05-13 22:57:16 发布

Xiaoweidumpb

最新推荐文章于 2023-05-13 22:57:16 发布

阅读量280

点赞数

分类专栏：大数据技术

本文链接：https://blog.csdn.net/qq_43751489/article/details/109342294

版权

大数据技术专栏收录该内容

37 篇文章 0 订阅

订阅专栏

3. 自定义分组求取topN

在这里插入图片描述

分组是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义分组实现不同的key作为同一个组，调用一次reduce逻辑

3.1 需求

有如下订单数据

订单id	商品id	成交金额
Order_0000001	Pdt_01	222.8
Order_0000001	Pdt_05	25.8
Order_0000002	Pdt_03	522.8
Order_0000002	Pdt_04	122.4
Order_0000002	Pdt_05	722.4
Order_0000003	Pdt_01	222.8

现在需要求出每一个订单中成交金额最大的一笔交易

3.2 分析

1、利用“订单id和成交金额”作为key，可以将map阶段读取到的所有订单数据按照id分区，按照金额排序，发送到reduce

2、在reduce端利用分组将订单id相同的kv聚合成组，然后取第一个即是最大值

3.3 实现

**第一步:**定义OrderBean
定义一个OrderBean，里面定义两个字段，第一个字段是我们的orderId，第二个字段是我们的金额（注意金额一定要使用Double或者DoubleWritable类型，否则没法按照金额顺序排序）

package demo03;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class OrderBean implements WritableComparable<OrderBean> {
    private String orderid;
    private Double price;

    @Override
    public String toString() {
        return   orderid+ "\t"+ price;
    }

    public String getOrderid() {
        return orderid;
    }

    public void setOrderid(String orderid) {
        this.orderid = orderid;
    }

    public Double getPrice() {
        return price;
    }

    public void setPrice(Double price) {
        this.price = price;
    }

    //指定javabean排序规则
    @Override
    public int compareTo(OrderBean orderBean) {
        //先去计较订单ID，如果订单id相同，排序订单金额
        int i = this.orderid.compareTo(orderBean.orderid);
        if (i==0){
             i = this.price.compareTo(orderBean.price)*-1;

        }
        return i;
    }
    //实现对象序列化
    @Override
    public void write(DataOutput dataOutput) throws IOException {
            dataOutput.writeUTF(orderid);
            dataOutput.writeDouble(price);
    }

    //实现对象的反序列化
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.orderid=dataInput.readUTF();
        this.price=dataInput.readDouble();
    }
}

第二步: 定义Mapper类

package demo03;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class GroupMapper extends Mapper<LongWritable, Text,OrderBean,Text> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] split = value.toString().split("\t");
        OrderBean orderBean = new OrderBean();
        orderBean.setOrderid(split[0]);
        orderBean.setPrice(Double.valueOf(split[2]));

        context.write(orderBean,value);
    }
}

第三步:自定义分区

自定义分区，按照订单id进行分区，把所有订单id相同的数据，都发送到同一个reduce中去

package demo03;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class OrderPartition extends Partitioner<OrderBean, Text> {
    //分区规则：根据订单的ID分区
    @Override
    public int getPartition(OrderBean orderBean, Text text, int i) {

        return (orderBean.getOrderid().hashCode() & 2147483647) % i;
    }
}

第四步:自定义分组

按照我们自己的逻辑进行分组，通过比较相同的订单id，将相同的订单id放到一个组里面去，进过分组之后当中的数据，已经全部是排好序的数据，我们只需要取前topN即可

package demo03;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/*
* 1:继承WritableComparator
* 2:调用父类的有参构造
* 3.指定分组的规则(重写方法)
* */
public class OrderGroupComparator extends WritableComparator {
    //        2:调用父类的有参构造
    public OrderGroupComparator() {
        super(OrderBean.class,true);
    }
    //分组的规则

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        //3.1对形参做强制类型转换
        OrderBean first=(OrderBean)a;
        OrderBean second=(OrderBean)b;


        //3.2指定分组规则
        return first.getOrderid().compareTo(second.getOrderid());
    }
}

第五步:定义Reducer类

public class GroupReducer extends Reducer<OrderBean,Text,Text,NullWritable> {
    @Override
    protected void reduce(OrderBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        int i = 0;
        //获取集合中的前N条数据
        for (Text value : values) {
            context.write(value, NullWritable.get());
            i++;
            if(i >= 1){
                break;
            }
        }
    }
}

第六步:程序main函数入口

package demo03;

import demo02.MyOutFormatMapper;
import demo02.MyOutputFormat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class Jobmain extends Configured implements Tool {

    @Override
    public int run(String[] strings) throws Exception {
        Job job = Job.getInstance(super.getConf(), "mygroup_job");

        //设置输入类和输入路径
        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job,new Path("file:///D:\\input\\mygroup_input"));

        //设置Mapper和数据类型
        job.setMapperClass(GroupMapper.class);
        job.setMapOutputKeyClass(OrderBean.class);
        job.setMapOutputValueClass(Text.class);

        //shuffle 阶段
        job.setPartitionerClass(OrderPartition.class);
        job.setGroupingComparatorClass(OrderGroupComparator.class);

        //设置ruducer
        job.setReducerClass(GroupReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //第八步:设置输出类和输出的路径
        job.setOutputFormatClass(TextOutputFormat.class);
        MyOutputFormat.setOutputPath(job,new Path("file:///D:\\out\\myogroup_out"));
        boolean b = job.waitForCompletion(true);

        return b ? 0:1;
    }

    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        int run = ToolRunner.run(configuration, new Jobmain(), args);
        System.exit(run);
    }
}

Xiaoweidumpb

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop-自定义分组求取topN

3. 自定义分组求取topN分组是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义分组实现不同的key作为同一个组，调用一次reduce逻辑3.1 需求有如下订单数据订单id商品id成交金额Order_0000001Pdt_01222.8Order_0000001Pdt_0525.8Order_00000
复制链接

扫一扫