Hadoop大数据入门到实战（第七节）- Mapreduce的使用

最新推荐文章于 2024-10-06 20:15:12 发布

vip2193

最新推荐文章于 2024-10-06 20:15:12 发布

阅读量2.9k

点赞数 1

分类专栏：大数据 Hadoop hdfs linux mapreduce 文章标签： Hadoop Mapreduce

本文链接：https://blog.csdn.net/vip2193/article/details/81906016

版权

本文介绍了MapReduce的原理和使用方法，通过一个实际案例展示了如何使用Hadoop MapReduce统计文本文件中单词出现的频率。文章详细解释了map、reduce过程，并提供了map类和reducer类的代码示例，同时讲解了Job类的配置和作业提交。此外，还给出了巩固练习，帮助读者加深对MapReduce的理解。

摘要由CSDN通过智能技术生成

MapReduce是Hadoop的核心功能之一，我们首先需要弄明白MapReduce到底是个啥，是干啥子用滴才行。

什么是MapReduce

MapReduce是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个任务，任务是：挖掘分析我国气象中心近年来的数据日志，该数据日志大小有3T,让你分析计算出每一年的最高气温，如果你现在只有一台计算机，如何处理呢？我想你应该会读取这些数据，并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。

如果我现在给你三台机器，你会如何处理呢？看到下图你应该想到了：最好的处理方式是将这些数据切分成三块，然后分别计算处理这些数据（Map），处理完毕之后发送到一台机器上进行合并（merge），再计算合并之后的数据，归纳（reduce）并输出。

这就是一个比较完整的MapReduce的过程了。

如何使用MapReduce进行运算

我们通过一个示例，来体验Map/Reduce的使用。

我们从一个问题入手：目前我们想统计两个文本文件中，每个单词出现的次数。

首先我们在当前目录下创建两个文件：

创建file01输入内容：

Hello World Bye World

创建file02输入内容：

Hello Hadoop Goodbye Hadoop

将文件上传到HDFS的/usr/input/目录下：

不要忘了启动DFS：
start-dfs.sh

然后创建文件夹并上传：

编写，文件WordCount.java，添加如下内容：

public class WordCount {
   
 public static class TokenizerMapper 
       extends Mapper<LongWritable, Text, Text, IntWritable>{
   
    private final static IntWritable one = new