Hadoop-WordCount入门案例

ReadMe

Hadoop的MapReduce(简称MR),是一个基于HDFS的大规模数据集分布式并行计算框架。
概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
(以上内容摘自百度百科: https://baike.baidu.com/item/MapReduce/133425?fr=aladdin )
更多信息请移步官方网站: https://hadoop.apache.org/

代码所需依赖通过Maven管理的方式已完成。具体使用方式请移步我的文章
《idea使用maven管理mr依赖》(我这么可爱,你不点一下吗?)

Code(代码)部分

Mapper类

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 首先获取一行数据
        String line = value.toString();
        // 将行内的单词进行切分,使用一个数组进行保存,切分数据时根据源数据得知可以使用空格的方式切分。
        String[] arr = line.split(" ");
        for (String str : arr) {
            context.write(new Text(str), new LongWritable(1));
        }
    }
}

Reduce类

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
    public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        // 定义变量记录单词出现的次数
        long sum = 0;
        for (LongWritable value : values) {
            // 记录总次数
            sum += value.get();
        }
        // 输出数据,key就是单词,value就是在map阶段这个单词出现的总次数
        context.write(key, new LongWritable(sum));
    }
}

Driver类:

package org.apache.hadoop.demo.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 获取当前的默认配置
        Configuration conf = new Configuration();
        // 获取代表当前mr作业的job对象
        Job job = Job.getInstance(conf);
        // 指定一下当前程序的入口类
        job.setJarByClass(WordCountDriver.class);

        //指定当前Mapper任务的类
        job.setMapperClass(WordCountMapper.class);
        // 指定当前Reducer任务的类
        job.setReducerClass(WordCountReducer.class);

        /*
        设置Mapper的结果类型
         */
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        /*
        设置Reducer的结果类型
         */
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        /**
         * 设置路径,包括了输入文件和输出路径
         * 下面代码中的hadoop01是因为在系统的host文件做了主机名与ip地址的映射,如果没有做映射可将其替换成IP地址。
         */
        FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/mapreduce/wc.txt"));
        // 输出路径的文件夹不能存在,若存在,则报错。
        FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/result"));

        job.waitForCompletion(true);
    }
}

代码写完之后,要在HDFS(Hadoop分布式文件系统)创建对应的目录,并上传文件。
注意,代码注释里提到了,FileOutputFormat.setOutpuPath所设置的路径不能存在,否则任务执行的时候会直接报错。

文档结束,如有错误,欢迎指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值