Hadoop中MapReduce基本案例及代码(二)

序列化/反序列化机制

当自定义一个类之后,如果想要产生的对象在hadoop中进行传输,那么需要 这个类实现Writable的接口进行序列化/反序列化

案例:统计每个人产生的总流量

数据源
在这里插入图片描述
自定义类序列化

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Flow implements Writable{

	private String phone;
	private String city;
	private String name;
	private int flow;

	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public String getCity() {
		return city;
	}

	public void setCity(String city) {
		this.city = city;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public int getFlow() {
		return flow;
	}

	public void setFlow(int flow) {
		this.flow = flow;
	}

	// 反序列化
	@Override
	public void readFields(DataInput in) throws IOException {
		// 按照序列化的顺序一个一个将数据读取出来
		this.phone = in.readUTF();
		this.city = in.readUTF();
		this.name = in.readUTF();
		this.flow = in.readInt();
	}

	// 序列化
	@Override
	public void write(DataOutput out) throws IOException {
		// 按照顺序将属性一个一个的写出即可
		out.writeUTF(phone);
		out.writeUTF(city);
		out.writeUTF(name);
		out.writeInt(flow);
	}

}

Map类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class FlowMapper extends Mapper<LongWritable, Text, Text, Flow> {

	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		
		String line = value.toString();
		
		String[] arr = line.split(" ");
		
		Flow f = new Flow();
		f.setPhone(arr[0]);
		f.setCity(arr[1]);
		f.setName(arr[2]);
		f.setFlow(Integer.parseInt(arr[3]));
		
		context.write(new Text(f.getPhone()), f);
		
	}

}

Reduce类

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowReducer extends Reducer<Text, Flow, Text, IntWritable> {

	public void reduce(Text key, Iterable<Flow> values, Context context) throws IOException, InterruptedException {
		
		int sum = 0;
		String name = null;
		for (Flow val : values) {
			name = val.getName();
			sum += val.getFlow();
		}
		
		context.write(new Text(key.toString() + " " + name), new IntWritable(sum));
	}

}

驱动类

package cn.tedu.flow;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf, "JobName");
		job.setJarByClass(cn.tedu.flow.FlowDriver.class);
		job.setMapperClass(FlowMapper.class);
		job.setReducerClass(FlowReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Flow.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path("hdfs://172.8.8.8:9000/mr/flow.txt"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://172.8.8.8:9000/flowresult"));

		if (!job.waitForCompletion(true))
			return;
	}

}

### 回答1: HadoopMapReduce代码案例有很多,以下是其一些常见的: 1. WordCount:统计文本每个单词出现的次数。 2. InvertedIndex:建立文本的倒排索引,方便快速查找。 3. PageRank:计算网页的PageRank值,用于搜索引擎排名。 4. K-Means:聚类算法,将数据分成多个簇。 5. Naive Bayes:朴素贝叶斯分类算法,用于文本分类等任务。 6. Collaborative Filtering:协同过滤算法,用于推荐系统。 以上是一些常见的Hadoop MapReduce代码案例,它们都可以在Hadoop平台上运行,处理大规模数据。 ### 回答2: Hadoop是一个分布式计算框架,用于处理大规模数据集。而MapReduce则是Hadoop的核心算法之一,用于将大规模数据集分割成小块,并以并行的方式进行处理。以下是一个简单的Hadoop MapReduce代码案例: 例如,我们有一堆文本数据文件,每个文件都包含了一些单词和它们的词频,我们需要对这些文件进行统计并计算出所有单词的总词频。首先,我们需要编写MapReduceMapper类: public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable>{ private final static LongWritable ONE = new LongWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{ String line = value.toString(); String[] words = line.split(" "); for(String w : words){ word.set(w); context.write(word, ONE); } } } Mapper类接收的是一个LongWritable类型的key 和 一个Text类型的value,key代表了每个文件的偏移量,value则是该文件的一行文本。在map()方法,我们首先将文本分裂成单词,然后遍历每个单词,将它们输出到Reducer,输出的key为单词,value为固定值1。 接下来,我们需要编写MapReduceReducer类: public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{ public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException{ long count = 0; for(LongWritable value : values){ count += value.get(); } context.write(key, new LongWritable(count)); } } Reducer类接收的key和value分别对应之前Mapper类输出的key和value。Reducer的reduce()方法,我们需要将每个单词的出现次数相加,并将结果输出到文件系统。 最后,我们需要编写Main类来执行MapReduce程序: public static void main(String[] args) throws Exception{ Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "wordcount"); job.setJarByClass(WordCount.class); job.setMapperClass(WordCountMapper.class); job.setCombinerClass(WordCountReducer.class); job.setReducerClass(WordCountReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } 在Main类,我们首先定义了一个Job,并根据需要设置Mapper、Reducer、Combiner以及输出文件格式等信息。然后设置输入和输出文件的路径,并执行MapReduce程序,最后输出任务执行的结果。 以上是一个简单的Hadoop MapReduce代码案例,通过这个案例我们可以初步了解MapReduce算法的执行流程和基本操作。 ### 回答3: HadoopMapReduce是一种分布式处理框架,可简化处理海量数据的方式。通过MapReduce,可以将任务分解成多个并行处理的作业,从而提高处理数据的速度和效率。下面以一个简单的代码案例来说明HadoopMapReduce实现方式。 案例背景:有一个文本文件,其包含若干行文字,每行文字包含多个单词,需要求出每个单词出现的次数。 Map阶段: 1.每个Mapper读取一行文字,然后将该行文字进行拆分,得到一个单词列表。 2.将单词作为Key,将1作为Value,存入一个临时Map。 3.输出临时Map的每个键值对,作为Mapper的输出。 输出格式为(Key,Value)。 例如:原始输入为"hello world",Mapper会输出两个键值对: ("hello",1) ("world",1) Reduce阶段: 1.接收到Mapper的输出后,Reduce会按照Key进行排序。相同的Key会被分到同一个Reducer。 2.对于每一个Key,Reduce会将它对应的Value合并(即求和),得到最终的出现次数。 3.输出最终的结果。输出格式为(Key,Value)。 例如:接收到Mapper输出的两个键值对后,Reduce会进行合并并输出一个键值对: ("hello",1) ("world",1) 最终输出为: ("hello",1) ("world",1) 注意:以上是一个最基本MapReduce实现方式,实际应用可能存在更多的处理步骤和优化方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值