Hadoop学习--流量分区并排序

最新推荐文章于 2024-04-05 19:19:37 发布

是渣渣呀

最新推荐文章于 2024-04-05 19:19:37 发布

阅读量1.3k

点赞数 7

分类专栏：笔记文章标签： java mapreduce hadoop 大数据

本文链接：https://blog.csdn.net/qq_43906881/article/details/117886218

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

准备文件

列名：手机号码上行流量下行流量总流量
在这里插入图片描述

实验内容

统计给定文件中，每一个手机号耗费的总上行流量、下行流量、总流量，手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中，并按照流量倒序排列

程序思路

每个类的作用

一、 FlowBean实体类

1. 实现Hadoop的Writable接口，并用来实现序列化及反序列化的bean对象
2. 用于存放我们感兴趣的数据（手机号，流量等）
3. 实现WritableComparable接口，用于shuffle中对key进行排序（这里是按照总流量进行倒序排列）

二、FlowSortPartitionerDriver驱动类

1. 获取Job实例并设置资源所在的类
2. 设置自定义的Mapper类，Reducer类以及分区类。
3. 指定Map输出的key，value的类型以及Reduce输出的key，value类型和reducer并行个数
4. 指定要读入的文件的位置和MapReduce后输出文件的位置

三、FlowSortMapper类

1. 获取读入文件并且经过Reader之后的数据（这里是电话及各种流量信息）
2. 对获取的value数据进行处理，并得到新的kv作为mapper的输出
2.1 这里是默认按每行读，所以map方法里先每次获取一行的数据并根据空格符截取数据，并将感兴趣的数据封装到bean对象中
2.2 然后将bean对象作为key，电话号作为value输出

四、FlowSortPartitioner分区类

1. 分区类在map函数执行context.write()时被调用
2. 获取map输出的键值对中我们感兴趣的信息（这里用的是value中电话号码的前三位）
3. 根据获取的信息将map输出的kv（键值对）分配给不同的分区

五、FlowSortReducer类

1. reducer类对shuffle后的键值对进行处理，并得到新的kv作为reducer的输出
1.1. 这里是将电话号码作为key，（其它流量等信息）bean对象作为value

完整代码

按照上面介绍的顺序

package com.zhuge.demo.pojo;

import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 *  1. 实现Hadoop的Writable接口，并用来实现序列化及反序列化的bean对象
 *  2. 用于存放我们感兴趣的数据（手机号，流量等）
 *  3. 实现WritableComparable接口，用于shuffle中对key进行排序（这里是按照总流量进行倒序排列）
 */
public class FlowBean implements Writable , WritableComparable {
    private long upFlow;
    private long downFlow;
    private long sumFlow;


    public FlowBean(){
        super();
    }

    public FlowBean(long upFlow, long downFlow) {
        super();
        this.upFlow = upFlow;
        this.downFlow = downFlow;
        this.sumFlow = upFlow + downFlow;
    }
	//重写序列化方法
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }
	//重写反序列化方法
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow  = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }

    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }


    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }
	
	// //用于对key进行排序的比较方法，sumFlow是当前对象的总流量，o是要比较的对象,若当前流量的更大，则返回负数
    @Override
    public int compareTo(Object o) {
        return Long.compare(((FlowBean) o).getSumFlow(), sumFlow);
    }
}

package com.zhuge.demo.flowsortpartition;

import com.zhuge.demo.flowsort.FlowSortMapper;
import com.zhuge.demo.flowsort.FlowSortReducer;
import com.zhuge.demo.pojo.FlowBean;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * @author ZCH
 * @date 2021/5/13 0013 - 上午 11:37
 *
 * 1. 获取Job实例设置资源所在的类
 * 2. 设置自定义的Mapper类，Reducer类以及分区类。
 * 3. 指定Map输出的key，value的类型以及Reduce输出的key，value类型和reducer并行个数
 * 4. 指定要读入的文件的位置和MapReduce后输出文件的位置
 *
 */
public class FlowSortPartitionerDriver {
    public static void main(String[] args) throws Exception{
        Job job = Job.getInstance(new Configuration());
        //设置job中的资源所在的jar包
        job.setJarByClass(FlowSortPartitionerDriver.class);

        //设置自定义的Mapper类，Reducer类
        job.setMapperClass(FlowSortMapper.class);
        job.setReducerClass(FlowSortReducer.class);

        //指定Map输出的key，value的类型
        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(Text.class);

        //指定Reduce输出的key，value类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        //加载自定义分区类
        job.setPartitionerClass(FlowSortPartitioner.class);

        //设置Reducetask个数
        job.setNumReduceTasks(5);

        //指定要读入的文件的位置
        FileInputFormat.setInputPaths(job,new Path("E:\\IDEA-Projects\\Writable\\src\\work\\part-r-00000"));
        //指定输出文件的存放位置
        FileOutputFormat.setOutputPath(job,new Path("E:\\IDEA-Projects\\Writable\\src\\output2"));

        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}

无论我们以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类；
系统默认的RecordReader是LineRecordReader，TextInputFormat；
LineRecordReader是用每行的偏移量作为map的key，每行的内容作为map的value；(就相当于我们文件中的每行电话及流量的记录)

注：为何要将bean作为mapper输出的key？
因为：shuffle中是对mapper输出中的key进行排序，也就是这里bean对象的属性sumFlow，所以如果bean不是key的话就没法按照总流量排序了！！

package com.zhuge.demo.flowsort;

import com.zhuge.demo.pojo.FlowBean;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * @author ZCH
 * @date 2021/5/13 0013 - 上午 11:36
 *
 *   1. 获取读入文件并且经过Reader之后的数据（这里是电话及各种流量信息）
 *   2. 对获取的value数据进行处理，并得到新的kv作为mapper的输出
 *   3. 这里是默认按每行读，所以map方法里先每次获取一行的数据并根据空格符截取数据，并将感兴趣的数据封装到bean对象中
 *   4. 然后将bean对象作为key，电话号作为value输出
 */
public class FlowSortMapper extends Mapper<LongWritable, Text, FlowBean, Text> {

    FlowBean bean = new FlowBean();
    Text v = new Text();

    /**
     *
     * 注： 这个mapper是对FlowDriver生成的文件进行Map的！！
     */
    @Override
    protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

        // 1 获取一行
        String line = value.toString();

        // 2 截取
        String[] fields = line.split("\t");

        // 3 封装对象
        String phoneNbr = fields[0];
        long upFlow = Long.parseLong(fields[1]);
        long downFlow = Long.parseLong(fields[2]);

        bean.setUpFlow(upFlow);
        bean.setDownFlow(downFlow);
        bean.setSumFlow(upFlow+downFlow);
        v.set(phoneNbr);

        // 4 输出
        context.write(bean, v);
    }
}

package com.zhuge.demo.flowsortpartition;

import com.zhuge.demo.pojo.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * @author ZCH
 * @date 2021/5/13 0013 - 下午 2:05
 *
 * 1. 分区类在map函数执行context.write()时被调用
 * 2. 获取map输出的键值对中的value的信息（这里是电话号码的前三位）
 * 3. 根据获取的信息将map输出的kv（键值对）分配给不同的分区
 */
public class FlowSortPartitioner extends Partitioner<FlowBean, Text> {
    @Override
    public int getPartition(FlowBean key, Text text, int i) {
        String preNum = text.toString().substring(0, 3);
        int partition = 4;
        // 2 判断是哪个省
        if ("136".equals(preNum)) {
            partition = 0;
        }else if ("137".equals(preNum)) {
            partition = 1;
        }else if ("138".equals(preNum)) {
            partition = 2;
        }else if ("139".equals(preNum)) {
            partition = 3;
        }
        return partition;
    }
}

package com.zhuge.demo.flowsort;

import com.zhuge.demo.pojo.FlowBean;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author ZCH
 * @date 2021/5/13 0013 - 上午 11:37
 *
 * 1. reducer类对shuffle后的键值对进行处理，并得到新的kv作为reducer的输出
 * 2. 这里是将电话号码作为key，（其它流量等信息）bean对象作为value
 */
public class FlowSortReducer extends Reducer<FlowBean, Text, Text, FlowBean> {

    @Override
    protected void reduce(FlowBean key, Iterable<Text> values, Context context)	throws IOException, InterruptedException {
        // 循环输出，避免总流量相同情况
        for (Text text : values) {
            context.write(text, key);
        }
    }
}

运行结果

在这里插入图片描述

是渣渣呀

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
3
评论
Hadoop学习--流量分区并排序

准备文件列名：手机号码上行流量下行流量总流量实验内容统计给定文件中，每一个手机号耗费的总上行流量、下行流量、总流量，手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中，并按照流量倒序排列程序思路每个类的作用一、 FlowBean实体类1. 实现Hadoop的Writable接口，并用来实现序列化及反序列化的bean对象2. 用于存放我们感兴趣的数据（手机号，流量等）3. 实现WritableComparable接口，用于
复制链接

扫一扫