Hadoop-WordCount入门案例

最新推荐文章于 2023-06-12 11:31:32 发布

油腻大叔-AlexRomeo

最新推荐文章于 2023-06-12 11:31:32 发布

阅读量225

点赞数

分类专栏： Hadoop BigData

本文链接：https://blog.csdn.net/AlexRomeo/article/details/105518979

版权

Hadoop 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

BigData

3 篇文章 1 订阅

订阅专栏

ReadMe

Hadoop的MapReduce(简称MR)，是一个基于HDFS的大规模数据集分布式并行计算框架。
概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。
(以上内容摘自百度百科: https://baike.baidu.com/item/MapReduce/133425?fr=aladdin )
更多信息请移步官方网站: https://hadoop.apache.org/

代码所需依赖通过Maven管理的方式已完成。具体使用方式请移步我的文章
《idea使用maven管理mr依赖》(我这么可爱，你不点一下吗?)

Code(代码)部分

Mapper类

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 首先获取一行数据
        String line = value.toString();
        // 将行内的单词进行切分，使用一个数组进行保存，切分数据时根据源数据得知可以使用空格的方式切分。
        String[] arr = line.split(" ");
        for (String str : arr) {
            context.write(new Text(str), new LongWritable(1));
        }
    }
}

Reduce类

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
    public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        // 定义变量记录单词出现的次数
        long sum = 0;
        for (LongWritable value : values) {
            // 记录总次数
            sum += value.get();
        }
        // 输出数据，key就是单词，value就是在map阶段这个单词出现的总次数
        context.write(key, new LongWritable(sum));
    }
}

Driver类：

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 获取当前的默认配置
        Configuration conf = new Configuration();
        // 获取代表当前mr作业的job对象
        Job job = Job.getInstance(conf);
        // 指定一下当前程序的入口类
        job.setJarByClass(WordCountDriver.class);

        //指定当前Mapper任务的类
        job.setMapperClass(WordCountMapper.class);
        // 指定当前Reducer任务的类
        job.setReducerClass(WordCountReducer.class);

        /*
        设置Mapper的结果类型
         */
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        /*
        设置Reducer的结果类型
         */
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        /**
         * 设置路径，包括了输入文件和输出路径
         * 下面代码中的hadoop01是因为在系统的host文件做了主机名与ip地址的映射，如果没有做映射可将其替换成IP地址。
         */
        FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/mapreduce/wc.txt"));
        // 输出路径的文件夹不能存在，若存在，则报错。
        FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/result"));

        job.waitForCompletion(true);
    }
}

代码写完之后，要在HDFS(Hadoop分布式文件系统)创建对应的目录，并上传文件。
注意，代码注释里提到了，FileOutputFormat.setOutpuPath所设置的路径不能存在，否则任务执行的时候会直接报错。

文档结束，如有错误，欢迎指导。