Hadoop-代码统计文本单词

lhy857

于 2022-05-08 17:31:32 发布

阅读量957

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/lhy857/article/details/124651349

版权

本文详细介绍了Hadoop中的经典示例WordCount程序，包括其核心代码逻辑，用于统计文本中各个单词出现的次数。通过这个例子，读者可以更好地理解Hadoop分布式计算的基本原理。

摘要由CSDN通过智能技术生成

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
/*
* Text 输入的字符串类型，序列化
* IntWritable 输入一串1，序列化
* Text 输出的字符串类型，序列化
* IntWritable 输出的求和数组，序列化*/
public class WordCountReduce extends Reducer<Text, IntWritable,Text,IntWritable> {//IntWritable序列化
    /*
    * key 输入单词名字
    * values 输入一串1
    * content 用于输出的工具*/
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //求和
        int sum=0;
        for(IntWritable number:values){//不能写int要写IntWritable
            //遍历一群1
            sum += number.get();
        }
        context.write(key,new IntWritable(sum));//sum是int型，没有序列化，不能直接输出，所以写成new IntWritable(sum)
    }
}

WordCount.java

import org.apache.hadoop.conf.Configuration;
import or

最低0.47元/天解锁文章

lhy857

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop-代码统计文本单词

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/** Text 输入的字符串类型，序列化* IntWritable 输入一串1，序列化* Text 输出的字符串类型，序列化* IntWritable 输出的求和数组，序列化*/public class .
复制链接

扫一扫