WordCount代码编写

最新推荐文章于 2024-05-10 10:39:28 发布

_tommy

最新推荐文章于 2024-05-10 10:39:28 发布

阅读量847

点赞数

分类专栏： hadoop学习笔记文章标签： hadoop

本文链接：https://blog.csdn.net/StromCruise/article/details/70789828

版权

hadoop学习笔记专栏收录该内容

21 篇文章 1 订阅

订阅专栏

本文是在win下装的linux虚拟机，在linux安装的hadoop环境，从而实现一个简单的单词计数功能。
目的：对于words.txt文本文件,对文本中的单词进行统计。

代码流程

分析具体的业务逻辑，确定输入数据的样式。
自定义一个类，这个类要继承Mapper类，并重写map方法，在map方法中实现具体的业务逻辑，然后将新的key，value输出。
自定义一个类，这个类要继承Reducer类，并重写reduce方法，在reduce方法中实现具体的业务逻辑，然后将新的key，value输出
最后将自定义的map和reduce通过job对象组装起来。

Map

package cn.master.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
       //Mapper的参数为输入和输出 ，输入和输出都是key value 的形式。
       //重写map方法。
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        //接收数据v1
        String line  =  value.toString();
        //切分数据
        String[] words = line.split(" ");
        //循环
        for(String w:words){
            //出现一次，记一个1，输出
            context.write(new Text(w), new LongWritable(1));
        }
    }

}

Reduce

package cn.master.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

    @Override
    protected void reduce(Text k2, Iterable<LongWritable> v2s,
            Context context) throws IOException, InterruptedException {
        //接收数据
        //定义一个计数器
        long counter =  0;
        //循环v2s
        for(LongWritable i : v2s){
            counter += i.get() ;
        }
        //输出
        context.write(k2, new LongWritable(counter));       
    }
}

通过job对象组装

package cn.master.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;//新的接口
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static void main(String[] args) throws Exception {
       Job job =Job.getInstance(new Configuration());//构建job对象

       //注意：main方所所在的类设置进去
       job.setJarByClass(WordCount.class);

       //组装map和reduce
       //设置mapper相关的属性
       job.setMapperClass(WCMapper.class);
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(LongWritable.class);
       FileInputFormat.setInputPaths(job, new Path("/words.txt"));//hdfs下的path，一般通过参数传递
       //设置reduce相关的属性
       job.setReducerClass(WCReducer.class);       
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(LongWritable.class);
       FileOutputFormat.setOutputPath(job, new Path("/wcout418"));
       //提交任务
       job.waitForCompletion(true);//true:在执行过程中打印进度和详情
    }
}

打jar包

选择项目，右键->export->jar file 可以在运行的时候选择程序入口，也可以打包时选择程序入口。

虚拟机上执行“hadoop jar 路径 ” 从而得出结果。

_tommy

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
WordCount代码编写

本文是在win下装的linux虚拟机，在linux安装的hadoop环境，从而实现一个简单的单词计数功能。目的：linux下有words.txt文件,words.txt 文本内容，对文本中的单词进行统计。代码流程MapReduce通过job对象组装打jar包代码流程分析具体的业务逻辑，确定输入数据的样式。自定义一个类，这个类要继承Mapper类，并重写map方法，在map方法中
复制链接

扫一扫

专栏目录