在实践中应用Hadoop MapReduce 实验1 dictionary

最新推荐文章于 2023-11-27 12:41:47 发布

magina507

最新推荐文章于 2023-11-27 12:41:47 发布

阅读量1k

点赞数

分类专栏：大数据处理实验报告文章标签：大数据学习笔记

本文链接：https://blog.csdn.net/magina507/article/details/51590273

版权

大数据处理同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

实验报告

14 篇文章 0 订阅

订阅专栏

一、实验题目

编写MapReduce程序Dictionary。

二、实验目的

Dictionary遍历dictionary.txt文件，读取数据，并把其中的英文词汇转化为法语或意大利语。

文档格式：每行空格前为英语，空格后为法语或意大利语，中括号中为词性。

三、任务分解

今天换一种方式来写实验报告。

首先，先观察待处理文档，由于windows下与linux中回车符的表示不同（一个为\r\n,一个为\n）。

所以同一个文档在不同系统中是不同的，linux如下图。

windows如下图：

所以要在linux中查看待处理文档，这一步很关键。

从文档中可以看出，该文档实际上是一个字典，每一行对应一个词条

即每一行都是一个英文单词对应一个或是多个翻译，通过逗号分隔开。

因此负责提取感兴趣信息的mapper函数就可以写出了：

package net.pascalalma.hadoop;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
import java.util.StringTokenizer;

public class WordMapper extends Mapper<Text, Text, Text, Text> {
	private Text word = new Text();

	public void map(Text key, Text value, Context context) throws IOException,
			InterruptedException {
		StringTokenizer itr = new StringTokenizer(value.toString(), ",");
		while (itr.hasMoreTokens()) {
			word.set(itr.nextToken());
			context.write(key, word);
		}
	}
}

在mapreduce中，数据的获取是按行获取的。获取之后转为String格式，再通过逗号来分离，最终将获得的值按照（key，word）的方式打包。

以linux第三行为例，aardvark orycte/rope[Noun]经过处理之后的结果应当为（aardvark，orycte）及（aardvark ，rope[Noun]）

reduce部分则是要把这样相同的值整合，并且输出。因此reduce部分的代码为：

package net.pascalalma.hadoop;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class AllTranslationsReducer extends Reducer<Text, Text, Text, Text> {
	private Text result = new Text();

	@Override
	protected void reduce(Text key, Iterable<Text> values, Context context)
			throws IOException, InterruptedException {
		String translations = "";
		for (Text val : values) {
			translations += "|" + val.toString();
		}
		result.set(translations);
		context.write(key, result);
	}
}

其中for（Text val：values）的意思为，map中相同key值的不同values，然后将这些value以|为分割连接起来，传给translations值。

最后将值打包。

接着写一下driver部分，整个程序就可以运行了。

package net.pascalalma.hadoop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class Dictionary {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = new Job(conf, "dictionary");
		job.setJarByClass(Dictionary.class);
		job.setMapperClass(WordMapper.class);
		job.setCombinerClass(AllTranslationsReducer.class);
		job.setReducerClass(AllTranslationsReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Text.class);
		job.setInputFormatClass(KeyValueTextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		boolean result = job.waitForCompletion(true);
		System.exit(result ? 0 : 1);
	}
}