hadoop入门·wordcount

最新推荐文章于 2023-03-28 15:42:02 发布

ahawdy

最新推荐文章于 2023-03-28 15:42:02 发布

阅读量183

点赞数

分类专栏：大数据实战文章标签： hadoop wordcount

本文链接：https://blog.csdn.net/weixin_41802971/article/details/88783670

版权

本文介绍了如何使用MapReduce实现WordCount，通过继承Map和Reduce类，分别在map阶段进行单词计数，reduce阶段进行键值对合并，汇总统计信息。将文件上传到HDFS后，即可执行wordcount操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce实现wordcount

Mapreduce实现主要是通过继承map和reduce类完成。在map中，让每一个节点对其邮件资源进行单词计数，构成键值对输出；reduce中接受键值对，对键相同的对进行合并，即可将各个节点的统计信息加以汇总。
将文件传到hdfs上就可以进行wordcount统计啦，下面是代码：

  import java.io.IOException; 
  import java.util.Iterator; 
  import
  java.util.StringTokenizer; 
  import
  org.apache.hadoop.conf.Configuration; 
  import org.apache.hadoop.fs.Path;
  
  import
  org.apache.hadoop.io.IntWritable; 
  import
  org.apache.hadoop.io.Text; 
  import
  org.apache.hadoop.mapreduce.Job; 
  import
  org.apache.hadoop.mapreduce.Mapper; 
  import
  org.apache.hadoop.mapreduce.Reducer; 
  import
  org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
  import
  org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
  import
  org.apache.hadoop.util.GenericOptionsParser;
   
  public class WordCount {
    
     public WordCount()

最低0.47元/天解锁文章