WordCount代码编写

本文是在win下装的linux虚拟机,在linux安装的hadoop环境,从而实现一个简单的单词计数功能。
目的:对于words.txt文本文件,对文本中的单词进行统计。

代码流程

  1. 分析具体的业务逻辑,确定输入数据的样式。
  2. 自定义一个类,这个类要继承Mapper类,并重写map方法,在map方法中实现具体的业务逻辑,然后将新的key,value输出。
  3. 自定义一个类,这个类要继承Reducer类,并重写reduce方法,在reduce方法中实现具体的业务逻辑,然后将新的key,value输出
  4. 最后将自定义的map和reduce通过job对象组装起来。

Map

package cn.master.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
       //Mapper的参数为输入和输出 ,输入和输出都是key value 的形式。
       //重写map方法。
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        //接收数据v1
        String line  =  value.toString();
        //切分数据
        String[] words = line.split(" ");
        //循环
        for(String w:words){
            //出现一次,记一个1,输出
            context.write(new Text(w), new LongWritable(1));
        }
    }

}

Reduce

package cn.master.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

    @Override
    protected void reduce(Text k2, Iterable<LongWritable> v2s,
            Context context) throws IOException, InterruptedException {
        //接收数据
        //定义一个计数器
        long counter =  0;
        //循环v2s
        for(LongWritable i : v2s){
            counter += i.get() ;
        }
        //输出
        context.write(k2, new LongWritable(counter));       
    }
}

通过job对象组装

package cn.master.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;//新的接口
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static void main(String[] args) throws Exception {
       Job job =Job.getInstance(new Configuration());//构建job对象

       //注意:main方所所在的类设置进去
       job.setJarByClass(WordCount.class);

       //组装map和reduce
       //设置mapper相关的属性
       job.setMapperClass(WCMapper.class);
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(LongWritable.class);
       FileInputFormat.setInputPaths(job, new Path("/words.txt"));//hdfs下的path,一般通过参数传递
       //设置reduce相关的属性
       job.setReducerClass(WCReducer.class);       
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(LongWritable.class);
       FileOutputFormat.setOutputPath(job, new Path("/wcout418"));
       //提交任务
       job.waitForCompletion(true);//true:在执行过程中打印进度和详情
    }
}

打jar包

选择项目,右键->export->jar file 可以在运行的时候选择程序入口,也可以打包时选择程序入口。

虚拟机上执行“hadoop jar 路径 ” 从而得出结果。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值