MapReduce —— WordCount案例

最新推荐文章于 2022-03-12 20:10:17 发布

Manfestain

最新推荐文章于 2022-03-12 20:10:17 发布

阅读量367

点赞数

本文链接：https://blog.csdn.net/Beans___Lee/article/details/106252642

版权

本文详细介绍了MapReduce程序中的WordCount案例，包括Map阶段的键值对转换、Reduce阶段的数据整合以及Driver部分的任务配置。Map阶段，Mapper继承Mapper类并重写map()方法，处理输入的Text类型数据；Reduce阶段，Reducer继承Reducer类，重写reduce()方法统计单词出现次数；Driver部分负责配置Map和Reduce任务，并指定输入输出路径。注意，输入输出路径不能预先存在，且需正确设置数据类型。

摘要由CSDN通过智能技术生成

WordCount：统计一个或多个文件内每个单词的出现次数。

一般情况下，一个MapReduce程序主要包含三个部分：Map、Reduce和Drive。Map阶段主要负责将任务拆分到不同的节点上，各个MapTask是相互独立的，Reduce负责将Map阶段各个节点上的结果进行整合，Drive主要负责环境的配置信息以及连接Map和Reduce。

Map阶段

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

// map阶段
/*
    输入参数：
    KEYIN 输入数据的key类型
    VALUEIN 输入数据的value类型
    KEYOUT 输出数据的key类型
    VALUEOUT 输出数据的value类型
 */
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 1 获取一行
        String line =

最低0.47元/天解锁文章

Manfestain

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce —— WordCount案例

WordCount：统计一个或多个文件内每个单词的出现次数。一般情况下，一个MapReduce程序主要包含三个部分：Map、Reduce和Drive。Map阶段主要负责将任务拆分到不同的节点上，各个MapTask是相互独立的，Reduce负责将Map阶段各个节点上的结果进行整合，Drive主要负责环境的配置信息以及连接Map和Reduce。Map阶段import org.apache....
复制链接

扫一扫