hadoop mapreduce 自定义分组实现

最新推荐文章于 2020-12-21 11:54:04 发布

真好，好的不得了

最新推荐文章于 2020-12-21 11:54:04 发布

阅读量548

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce 自定义分组实现

本文链接：https://blog.csdn.net/qq_41854797/article/details/90379917

版权

hadoop mapreduce 自定义分组实现

任务要求：对流量日志进行流量统计，将不同省份的用户统计结果输出到不同的文件；

需要自定义改造两个机制：

1、改造分区的逻辑，自定义一个Partitioner类
2、自定义reducer task的并发任务数；

具体代码java：
mapreduce 以及主类代码：

package com.cjp.areaPartitioner;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.cjp.sumflow.FlowBean;

public class FlowSum {

	public static class Maps extends Mapper<LongWritable, Text, Text, FlowBean> {
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

			String line = value.toString();
			String[] split = StringUtils.split(line, "\t");

			String phoneNum = split[1];
			long up_flow_sum = Integer.parseInt(split[5]);
			long d_flow_sum = Integer.parseInt(split[6]);
			
			context.write(new Text(phoneNum), new FlowBean(phoneNum, up_flow_sum, d_flow_sum));
			

		}
	}

	public static class Reduces extends Reducer<Text, FlowBean, Text, FlowBean> {

		protected void reduce(Text arg0, Iterable<FlowBean> value, Context co

最低0.47元/天解锁文章

真好，好的不得了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop mapreduce 自定义分组实现

hadoop mapreduce 自定义分组实现任务要求：对流量日志进行流量统计，将不同省份的用户统计结果输出到不同的文件；需要自定义改造两个机制：1、改造分区的逻辑，自定义一个Partitioner类2、自定义reducer task的并发任务数；具体代码java：mapreduce 以及主类代码：package com.cjp.areaPartitioner;impor...
复制链接

扫一扫

专栏目录