MapReduce--9--求变动版本

MapReduce面试题3–求变动版本

1、数据
现在有如下一份数据:

20170308,黄渤,光环斗地主,8,360手机助手,0.1版本,北京
20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京
20170308,黄渤,光环斗地主,7,360手机助手,0.1版本,北京
20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京
20170308,黄渤,光环斗地主,9,360手机助手,0.2版本,北京
20170308,黄渤,光环斗地主,23,360手机助手,0.2版本,北京
20170308,黄渤,光环斗地主,22,360手机助手,0.2版本,北京
20170308,黄渤,光环斗地主,14,360手机助手,0.3版本,北京
20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京
20170308,黄渤,光环斗地主,16,360手机助手,0.4版本,北京
20170308,黄渤,光环斗地主,18,360手机助手,0.4版本,北京
20170308,黄渤,光环斗地主,19,360手机助手,0.4版本,北京
20170308,黄渤,光环斗地主,15,360手机助手,0.4版本,北京
20170309,徐峥,光环斗地主,8,360手机助手,0.1版本,北京
20170309,徐峥,光环斗地主,5,360手机助手,0.1版本,北京
20170309,徐峥,光环斗地主,6,360手机助手,0.1版本,北京
20170309,徐峥,光环斗地主,10,360手机助手,0.2版本,北京
20170309,徐峥,光环斗地主,12,360手机助手,0.2版本,北京
20170309,徐峥,光环斗地主,11,360手机助手,0.3版本,北京
20170309,徐峥,光环斗地主,9,360手机助手,0.2版本,北京
20170309,徐峥,光环斗地主,23,360手机助手,0.2版本,北京
20170309,徐峥,光环斗地主,22,360手机助手,0.2版本,北京
20170309,徐峥,光环斗地主,14,360手机助手,0.3版本,北京
20170309,徐峥,光环斗地主,13,360手机助手,0.3版本,北京
20170309,徐峥,光环斗地主,16,360手机助手,0.4版本,北京
20170309,徐峥,光环斗地主,18,360手机助手,0.4版本,北京
20170309,徐峥,光环斗地主,19,360手机助手,0.5版本,北京
20170309,徐峥,光环斗地主,15,360手机助手,0.4版本,北京

数据的字段信息:
用户ID,用户名,游戏名,小时,数据来源,游戏版本,用户所在地
id,name,game,hour,source,version,city

含义:以
20170309,徐峥,光环斗地主,15,360手机助手,0.4版本,北京

为例,表示:
从“360手机助手”收集到的ID为“20170309”的北京用户“黄渤”在“15”点的“光环斗地主”游戏的版本是“0.4版本”

2、题目需求

在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户
例如:

20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京
20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京,0.2版本
20170308,黄渤,光环斗地主,14,360手机助手,0.3版本,北京
20170308,黄渤,光环斗地主,15,360手机助手,0.4版本,北京,0.3版本

用户“小强”在10点钟是0.2版本,但是到了13点变成了0.3版本,那么就在13点钟这条记录的后面追加一个字段值0.2版本,也就是上个版本的版本号,当然,为什么从10点直接到了13点,因为11点和12点的数据没有收集到。

另外也需要注意,用户的软件不仅可以升级,也可以倒退。也就是比如,13点是0.3版本,到了14点也有可能是0.2版本。这都是正常的数据。

3、具体代码实现

package com.ghgj.mazh.mapreduce.exercise.version;
 
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
 
数据:
	20170308,黄渤,光环斗地主,8,360手机助手,0.1版本,北京
	20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京
	20170308,黄渤,光环斗地主,7,360手机助手,0.1版本,北京
	20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京
	20170308,黄渤,光环斗地主,9,360手机助手,0.2版本,北京
	20170308,黄渤,光环斗地主,23,360手机助手,0.2版本,北京
	20170308,黄渤,光环斗地主,22,360手机助手,0.2版本,北京
	20170308,黄渤,光环斗地主,14,360手机助手,0.3版本,北京
	20170308,黄渤,光环斗地主,13,360手机助手,0.3版本,北京
	20170308,黄渤,光环斗地主,16,360手机助手,0.4版本,北京
	20170308,黄渤,光环斗地主,18,360手机助手,0.4版本,北京
	20170308,黄渤,光环斗地主,19,360手机助手,0.4版本,北京
	20170308,黄渤,光环斗地主,15,360手机助手,0.4版本,北京
	20170309,徐峥,光环斗地主,8,360手机助手,0.1版本,北京
	20170309,徐峥,光环斗地主,5,360手机助手,0.1版本,北京
	20170309,徐峥,光环斗地主,6,360手机助手,0.1版本,北京
	20170309,徐峥,光环斗地主,10,360手机助手,0.2版本,北京
	20170309,徐峥,光环斗地主,12,360手机助手,0.2版本,北京
	20170309,徐峥,光环斗地主,11,360手机助手,0.3版本,北京
	20170309,徐峥,光环斗地主,9,360手机助手,0.2版本,北京
	20170309,徐峥,光环斗地主,23,360手机助手,0.2版本,北京
	20170309,徐峥,光环斗地主,22,360手机助手,0.2版本,北京
	20170309,徐峥,光环斗地主,14,360手机助手,0.3版本,北京
	20170309,徐峥,光环斗地主,13,360手机助手,0.3版本,北京
	20170309,徐峥,光环斗地主,16,360手机助手,0.4版本,北京
	20170309,徐峥,光环斗地主,18,360手机助手,0.4版本,北京
	20170309,徐峥,光环斗地主,19,360手机助手,0.5版本,北京
	20170309,徐峥,光环斗地主,15,360手机助手,0.4版本,北京
	
字段信息:
	用户ID,用户名,游戏名,小时,数据来源,游戏版本,用户所在地
	id, name, game, hour, source, version, city 
题目要求:
	在所有有版本变动的记录后面追加一条字段信息:该信息就是上一个版本的版本号,只限同用户
	例如:
	20170308,小强,光环斗地主,10,360手机助手,0.2版本,北京
	20170308,小强,光环斗地主,13,360手机助手,0.3版本,北京,0.2版本
	20170308,小强,光环斗地主,14,360手机助手,0.3版本,北京
	20170308,小强,光环斗地主,15,360手机助手,0.4版本,北京,0.3版本
说明:
	用户“小强”在10点钟是0.2版本,但是到了13点变成了0.3版本,那么就在13点钟这条记录的后面追加一个字段值0.2版本,
	也就是上个版本的版本号,当然,为什么从10点直接到了13点,因为11点和12点的数据没有收集到。
 */
public class VersionMR extends Configured implements Tool {
 
	public static void main(String[] args) throws Exception {
 
		int run = ToolRunner.run(new VersionMR(), args);
		System.exit(run);
	}
 
	public int run(String[] args) throws Exception {
 
		// 指定hdfs相关的参数
		Configuration conf = new Configuration();
 
		Job job = Job.getInstance(conf);
		job.setJarByClass(VersionMR.class);
 
		// 指定mapper类和reducer类
		job.setMapperClass(VersionMRMapper.class);
		job.setReducerClass(VersionMRReducer.class);
 
		// 指定maptask的输出类型
		job.setMapOutputKeyClass(Version.class);
		job.setMapOutputValueClass(NullWritable.class);
 
		// 指定reducetask的输出类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
 
		// 本地路径
		Path inputPath = new Path("d:/bigdata/version/input");
		Path outputPath = new Path("d:/bigdata/version/output");
 
		// 指定该mapreduce程序数据的输入和输出路径
		// Path inputPath = new Path("/version/input");
		// Path outputPath = new Path("/version/output");
		FileSystem fs = FileSystem.get(conf);
		if (fs.exists(outputPath)) {
			fs.delete(outputPath, true);
		}
		FileInputFormat.setInputPaths(job, inputPath);
		FileOutputFormat.setOutputPath(job, outputPath);
 
		// 最后提交任务
		boolean waitForCompletion = job.waitForCompletion(true);
		return waitForCompletion ? 0 : 1;
	}
 
	public static class VersionMRMapper extends Mapper<LongWritable, Text, Version, NullWritable> {
 
		/**
		 * 20170309,tom,光环斗地主,15,360手机助手,0.4版本,北京
		 */
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
			String[] split = value.toString().split(",");
			Version version = new Version(split[0], split[1], split[2], Integer.parseInt(split[3]), split[4], split[5], split[6]);
 
			context.write(version, NullWritable.get());
		}
	}
 
	public static class VersionMRReducer extends Reducer<Version, NullWritable, Text, NullWritable> {
 
		String lastID = null;
		String lastName = null;
		String lastVersion = null;
 
		@Override
		protected void reduce(Version key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
 
			for (NullWritable nvl : values) {
				if (null == lastVersion) {
					// 第一次进入程序,lastVersion是空, 直接打印, 因为相当于没有上一条数据
					context.write(new Text(key.toString()), NullWritable.get());
				} else {
					// 当 ID 和 name 一致时,
					if (lastID.equals(key.getId()) && lastName.equals(key.getName())) {
						// 判断上个版本号 和 当前版本号是否一致
						if (!lastVersion.equals(key.getVersion())) {
							context.write(new Text(key.toString() + "," + lastVersion), NullWritable.get());
						}
						/*else{
							context.write(new Text(key.toString()), NullWritable.get());
						}*/
						// 当 ID 和 name 有一个不一致时, 证明是两个不同用户的
					} else {
						context.write(new Text(key.toString()), NullWritable.get());
					}
				}
				// 进行数据的迭代,以方便数据的 本次 和 下次的对比
				lastID = key.getId();
				lastName = key.getName();
				lastVersion = key.getVersion();
			}
		}
	}
}

Version类:

package com.ghgj.mazh.mapreduce.exercise.version;
 
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
 
import org.apache.hadoop.io.WritableComparable;
 
/**
 * 描述:封装版本信息
 */
public class Version implements WritableComparable<Version> {
 
	private String id;
	private String name;
	private String game;
	private int hour;
	private String source;
	private String version;
	private String city;
 
	public Version(String id, String name, String game, int hour, String source, String version, String city) {
		super();
		this.id = id;
		this.name = name;
		this.game = game;
		this.hour = hour;
		this.source = source;
		this.version = version;
		this.city = city;
	}
 
	public Version() {
		super();
		// TODO Auto-generated constructor stub
	}
 
	public String getId() {
		return id;
	}
 
	public void setId(String id) {
		this.id = id;
	}
 
	public String getName() {
		return name;
	}
 
	public void setName(String name) {
		this.name = name;
	}
 
	public String getGame() {
		return game;
	}
 
	public void setGame(String game) {
		this.game = game;
	}
 
	public int getHour() {
		return hour;
	}
 
	public void setHour(int hour) {
		this.hour = hour;
	}
 
	public String getSource() {
		return source;
	}
 
	public void setSource(String source) {
		this.source = source;
	}
 
	public String getVersion() {
		return version;
	}
 
	public void setVersion(String version) {
		this.version = version;
	}
 
	public String getCity() {
		return city;
	}
 
	public void setCity(String city) {
		this.city = city;
	}
 
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeUTF(id);
		out.writeUTF(name);
		out.writeUTF(game);
		out.writeInt(hour);
		out.writeUTF(source);
		out.writeUTF(version);
		out.writeUTF(city);
	}
 
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.id = in.readUTF();
		this.name = in.readUTF();
		this.game = in.readUTF();
		this.hour = in.readInt();
		this.source = in.readUTF();
		this.version = in.readUTF();
		this.city = in.readUTF();
	}
 
	public int compareTo(Version version) {
 
		int resultID = this.id.compareTo(version.getId());
		if (resultID == 0) {
			int resultName = this.name.compareTo(version.getName());
			if (resultName == 0) {
				return this.version.compareTo(version.getVersion());
			} else {
				return resultName;
			}
		} else {
			return resultID;
		}
	}
 
	@Override
	public String toString() {
		return id + "," + name + "," + game + "," + hour + "," + source + "," + version + "," + city;
	}
 
}

4、结果

20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京
20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京,0.1版本
20170308,黄渤,光环斗地主,14,360手机助手,0.3版本,北京,0.2版本
20170308,黄渤,光环斗地主,16,360手机助手,0.4版本,北京,0.3版本
20170309,徐峥,光环斗地主,8,360手机助手,0.1版本,北京
20170309,徐峥,光环斗地主,10,360手机助手,0.2版本,北京,0.1版本
20170309,徐峥,光环斗地主,11,360手机助手,0.3版本,北京,0.2版本
20170309,徐峥,光环斗地主,16,360手机助手,0.4版本,北京,0.3版本
20170309,徐峥,光环斗地主,19,360手机助手,0.5版本,北京,0.4版本

如有不当之处,还请不吝指教。。。 ヾ(◍°∇°◍)ノ゙


作者:中琦2513
来源:CSDN
原文:https://blog.csdn.net/zhongqi2513/article/details/78345726
版权声明:本文为博主原创文章,转载请附上博文链接!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值