大数据学习（八）：mapreduce编程案例-计算每个手机号访问网站请求流量、相应流量和流量总和根据手机号判断省份进行分类

最新推荐文章于 2022-11-17 10:18:56 发布

冬去春来.

最新推荐文章于 2022-11-17 10:18:56 发布

阅读量492

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_33252988/article/details/104340043

版权

大数据专栏收录该内容

13 篇文章 2 订阅

订阅专栏

数据类型

数据顺序依次为:时间戳、手机号、mark地址、ip地址、访问地址、网站类型、请求时间、响应时间、请求流量、响应流量、状态


1363157985066 	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157995052 	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4			4	0	264	0	200
1363157991076 	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99			2	4	132	1512	200
1363154400022 	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4			4	0	240	0	200
1363157993044 	18211575961	94-71-AC-CD-E6-18:CMCC-EASY	120.196.100.99	iface.qiyi.com	视频网站	15	12	1527	2106	200
1363157995074 	84138413	5C-0E-8B-8C-E8-20:7DaysInn	120.197.40.4	122.72.52.12		20	16	4116	1432	200
1363157993055 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200
1363157995033 	15920133257	5C-0E-8B-C7-BA-20:CMCC	120.197.40.4	sug.so.360.cn	信息安全	20	20	3156	2936	200
1363157983019 	13719199419	68-A1-B7-03-07-B1:CMCC-EASY	120.196.100.82			4	0	240	0	200
1363157984041 	13660577991	5C-0E-8B-92-5C-20:CMCC-EASY	120.197.40.4	s19.cnzz.com	站点统计	24	9	6960	690	200
1363157973098 	15013685858	5C-0E-8B-C7-F7-90:CMCC	120.197.40.4	rank.ie.sogou.com	搜索引擎	28	27	3659	3538	200
1363157986029 	15989002119	E8-99-C4-4E-93-E0:CMCC-EASY	120.196.100.99	www.umeng.com	站点统计	3	3	1938	180	200
1363157992093 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			15	9	918	4938	200
1363157986041 	13480253104	5C-0E-8B-C7-FC-80:CMCC-EASY	120.197.40.4			3	3	180	180	200
1363157984040 	13602846565	5C-0E-8B-8B-B6-00:CMCC	120.197.40.4	2052.flash2-http.qq.com	综合门户	15	12	1938	2910	200
1363157995093 	13922314466	00-FD-07-A2-EC-BA:CMCC	120.196.100.82	img.qfc.cn		12	12	3008	3720	200
1363157982040 	13502468823	5C-0A-5B-6A-0B-D4:CMCC-EASY	120.196.100.99	y0.ifengimg.com	综合门户	57	102	7335	110349	200
1363157986072 	18320173382	84-25-DB-4F-10-1A:CMCC-EASY	120.196.100.99	input.shouji.sogou.com	搜索引擎	21	18	9531	2412	200
1363157990043 	13925057413	00-1F-64-E1-E6-9A:CMCC	120.196.100.55	t3.baidu.com	搜索引擎	69	63	11058	48243	200
1363157988072 	13760778710	00-FD-07-A4-7B-08:CMCC	120.196.100.82			2	2	120	120	200
1363157985066 	13726238888	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157993055 	13560436666	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200

自定义数据类型如何实现hadoop的序列化接口？

1、实现Writable接口
2、保留空参构造函数
3、write方法中输出字段二进制数据的顺序要与readFields方法读取数据的顺序一致

package com.bigdata.mapreduce.flow;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

/**
 * 自定义数据类型如何实现hadoop的序列化接口
 * 1、实现Writable接口
 * 2、保留空参构造函数
 * 3、write方法中输出字段二进制数据的顺序要与readFields方法读取数据的顺序一致
 * @author 90669
 *
 */
public class FlowBean implements Writable{
	
	//请求流量
	private int upFlow;
	//响应流量
	private int dFlow;
	//电话
	private String phone;
	//总流量
	private int amountFlow;

	public FlowBean(){}
	
	public FlowBean(String phone, int upFlow, int dFlow) {
		this.phone = phone;
		this.upFlow = upFlow;
		this.dFlow = dFlow;
		this.amountFlow = upFlow + dFlow;
	}

	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public int getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(int upFlow) {
		this.upFlow = upFlow;
	}

	public int getdFlow() {
		return dFlow;
	}

	public void setdFlow(int dFlow) {
		this.dFlow = dFlow;
	}

	public int getAmountFlow() {
		return amountFlow;
	}

	public void setAmountFlow(int amountFlow) {
		this.amountFlow = amountFlow;
	}

	/**
	 * hadoop系统在序列化该类的对象时要调用的方法
	 */
	@Override
	public void write(DataOutput out) throws IOException {

		out.writeInt(upFlow);
		out.writeUTF(phone);
		out.writeInt(dFlow);
		out.writeInt(amountFlow);

	}

	/**
	 * hadoop系统在反序列化该类的对象时要调用的方法
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upFlow = in.readInt();
		this.phone = in.readUTF();
		this.dFlow = in.readInt();
		this.amountFlow = in.readInt();
	}

	@Override
	public String toString() {
		 
		return this.phone + ","+this.upFlow +","+ this.dFlow +"," + this.amountFlow;
	}

}

package com.bigdata.mapreduce.flow;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean> {

	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		String line = value.toString();
		String[] fields = line.split("\t");
		// 电话
		String phone = fields[1];
		int upFlow = Integer.parseInt(fields[fields.length - 3]);
		int dFlow = Integer.parseInt(fields[fields.length - 2]);

		context.write(new Text(phone), new FlowBean(phone, upFlow, dFlow));

	}

}

package com.bigdata.mapreduce.flow;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean>{
	
	@Override
	protected void reduce(Text key, Iterable<FlowBean> values, Context context)
			throws IOException, InterruptedException {
		
		int upSum = 0;
		int dSum = 0;
		for (FlowBean flowBean : values) {
			upSum+=flowBean.getUpFlow();
			dSum+=flowBean.getdFlow();
		}
		
		context.write(new Text(key), new FlowBean(key.toString(),upSum,dSum));
		
	}

}

package com.bigdata.mapreduce.flow;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;


public class JobSubmitter {
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(JobSubmitter.class);
		
		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);
		
		
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		FileInputFormat.setInputPaths(job, new Path("D:\\mrdata\\flow\\input"));
		FileOutputFormat.setOutputPath(job, new Path("D:\\mrdata\\flow\\output"));
		
		job.waitForCompletion(true);
	}

}

运算结果

13480253104	13480253104,180,180,360
13502468823	13502468823,7335,110349,117684
13560436666	13560436666,1116,954,2070
13560439658	13560439658,2034,5892,7926
13602846565	13602846565,1938,2910,4848
13660577991	13660577991,6960,690,7650
13719199419	13719199419,240,0,240
13726230503	13726230503,2481,24681,27162
13726238888	13726238888,2481,24681,27162
13760778710	13760778710,120,120,240
13826544101	13826544101,264,0,264
13922314466	13922314466,3008,3720,6728
13925057413	13925057413,11058,48243,59301
13926251106	13926251106,240,0,240
13926435656	13926435656,132,1512,1644
15013685858	15013685858,3659,3538,7197
15920133257	15920133257,3156,2936,6092
15989002119	15989002119,1938,180,2118
18211575961	18211575961,1527,2106,3633
18320173382	18320173382,9531,2412,11943
84138413	84138413,4116,1432,5548

案例:根据手机号判断省并进行分组

package com.bigdata.mapreduce.flow;

import java.util.HashMap;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * 本类是提供给MapTask用的
 * MapTask通过这个类的getPartition方法，来计算它所产生的每一对kv数据该分发给哪一个reduce task
 * @author ThinkPad
 *
 */
public class ProvincePartitioner extends Partitioner<Text, FlowBean>{

	static HashMap<String,Integer> codeMap = new HashMap<>();
	static{
		
		codeMap.put("135", 0);
		codeMap.put("136", 1);
		codeMap.put("137", 2);
		codeMap.put("138", 3);
		codeMap.put("139", 4);
		
	}
	
	
	
	@Override
	public int getPartition(Text key, FlowBean value, int numPartitions) {
		//获取手机号前三位进行比对进行分类
		Integer code = codeMap.get(key.toString().substring(0, 3));
		return code==null?5:code;
	}


}

package com.bigdata.mapreduce.flow;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;

public class JobSubmitter {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

		job.setJarByClass(JobSubmitter.class);

		job.setMapperClass(FlowCountMapper.class);
		job.setReducerClass(FlowCountReducer.class);

		// 设置参数：maptask在做数据分区时，用哪个分区逻辑类 （如果不指定，它会用默认的HashPartitioner）
		job.setPartitionerClass(ProvincePartitioner.class);
		// 由于我们的ProvincePartitioner可能会产生6种分区号，所以，需要有6个reduce task来接收
		job.setNumReduceTasks(6);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);

		FileInputFormat.setInputPaths(job, new Path("D:\\mrdata\\flow\\input"));
		FileOutputFormat.setOutputPath(job, new Path("D:\\mrdata\\flow\\province-output"));

		job.waitForCompletion(true);
	}

}

输出结果

13502468823	13502468823,7335,110349,117684
13560436666	13560436666,1116,954,2070
13560439658	13560439658,2034,5892,7926

冬去春来.

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据学习（八）：mapreduce编程案例-计算每个手机号访问网站请求流量、相应流量和流量总和根据手机号判断省份进行分类

数据类型数据顺序依次为:时间戳、手机号、mark地址、ip地址、访问地址、网站类型、请求时间、响应时间、请求流量、响应流量、状态1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C...
复制链接

扫一扫

专栏目录