MapReduce - A - 排序 - TreeSet

题目:
求评分(平均值)最高的前10的电影id?(输出:moveid 平均分)

思路:
Map中获取数据,键:电影好,值:电影信息类(实现Comparable)
Reduce中汇总数据,将某部电影的评分算出来,然后放到TreeSet中
Reducer的cleanup中,输出TreeSet中记录的电影信息

代码:

//电影信息类

package Sort02;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class RecordWritable implements WritableComparable<RecordWritable> {
    private String movie = "";
    private long sum = 0L;
    private double rate = 0.0;

    public int compareTo(RecordWritable o) {
        if(this.rate < o.rate){
            return 1;
        }
        else if(this.rate > o.rate){
            return -1;
        }
        else {
            return Integer.parseInt(this.movie) - Integer.parseInt(o.movie);
        }
    }

    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(movie);
        dataOutput.writeLong(sum);
        dataOutput.writeDouble(rate);
    }

    public void readFields(DataInput dataInput) throws IOException {
        this.movie = dataInput.readUTF();
        this.sum = dataInput.readLong();
        this.rate = dataInput.readDouble();
    }

    @Override
    public String toString() {
        return "movie='" + movie + '\'' + ", rate=" + rate;
    }

    public String getMovie() {
        return movie;
    }

    public void setMovie(String movie) {
        this.movie = movie;
    }

    public long getSum() {
        return sum;
    }

    public void setSum(long sum) {
        this.sum = sum;
    }

    public double getRate() {
        return rate;
    }

    public void setRate(double rate) {
        this.rate = rate;
    }
}
//MapReduce

package Sort02;

import org.apache.commons.lang.ObjectUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.TreeSet;

public class MainDemo {
    public static void main(String[] args){
        try{
            Configuration conf = new Configuration();

            Job job = Job.getInstance(conf, "Sort02-MainDemo");

            job.setJarByClass(MainDemo.class);

            job.setMapperClass(MyMapper.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(RecordWritable.class);

            job.setReducerClass(MyReducer.class);
            job.setOutputKeyClass(RecordWritable.class);
            job.setOutputValueClass(NullWritable.class);

            FileInputFormat.addInputPath(job, new Path("C:/Users/Administrator/Desktop/Data/input/rating.json"));
            FileOutputFormat.setOutputPath(job, new Path("C:/Users/Administrator/Desktop/Data/output/03/00"));

            int success = job.waitForCompletion(true) ? 0: 1;

            System.exit(success);
        }
        catch (Exception e){
            e.printStackTrace();
        }
    }
    //自定义的Mapper类
    public static class MyMapper extends Mapper<Object, Text, Text, RecordWritable>{
        Text k = new Text();
        RecordWritable v = new RecordWritable();
        @Override
        protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String row = value.toString();
            String[] words = row.split("\"");
            v.setMovie(words[3]);
            v.setSum(Integer.parseInt(words[7]));
            v.setRate(0.0);
            k.set(words[3]);
            context.write(k, v);
        }
    }
    //自定义的Reducer类
    public static class MyReducer extends Reducer<Text, RecordWritable, RecordWritable, NullWritable>{
        TreeSet<RecordWritable> ts = new TreeSet<RecordWritable>();
        final static int N = 20;
        @Override
        protected void reduce(Text key, Iterable<RecordWritable> values, Context context) throws IOException, InterruptedException {
            int cnt = 0;
            long sum = 0L;
            for (RecordWritable rw: values){
                cnt += 1;
                sum += rw.getSum();
            }
            RecordWritable rw = new RecordWritable();
            rw.setMovie(key.toString());
            rw.setRate((sum*1.0)/(cnt*1.0));
            ts.add(rw);
            if(ts.size() > N){
                ts.pollLast();
            }
        }

        @Override
        protected void cleanup(Context context) throws IOException, InterruptedException {
            for(RecordWritable rw: ts){
                context.write(rw, NullWritable.get());
            }
        }
    }
}
hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块之一。它主要包含了Hadoop MapReduce的核心功能和API接口,是实现MapReduce编程模型的必备组件。 Hadoop MapReduce是一种用于大规模数据处理的编程模型,其核心思想是将大规模数据集分解成多个较小的数据块,分别在集群中的不同机器上进行处理,最后将结果整合。hadoop-mapreduce-client-core模块提供了与MapReduce相关的类和方法,方便开发者实现自定义的Map和Reduce任务。 具体来说,hadoop-mapreduce-client-core模块包含了以下重要组件和功能: 1. Job:Job表示一个MapReduce任务的定义和描述,包括输入路径、输出路径、Mapper和Reducer等。 2. Mapper:Mapper是MapReduce任务中的映射函数,它负责将输入数据转换成<key, value>键值对的形式。 3. Reducer:Reducer是MapReduce任务中的归约函数,它按照相同的key将所有Mapper输出的value进行聚合处理。 4. InputFormat:InputFormat负责将输入数据切分成多个InputSplit,每个InputSplit由一个Mapper负责处理。 5. OutputFormat:OutputFormat负责将Reducer的输出结果写入指定的输出路径中。 使用hadoop-mapreduce-client-core模块,开发者可以基于Hadoop分布式计算框架快速开发并行处理大规模数据的应用程序。通过编写自定义的Mapper和Reducer,可以实现各种类型的分布式计算,如数据清洗、聚合分析、机器学习等。 总之,hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块,提供了实现MapReduce编程模型所需的基本功能和API接口。使用该模块,开发者可以利用Hadoop的分布式计算能力,高效地处理和分析大规模数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值