Hadoop之MapReduce编写入门和提交集群运行

最新推荐文章于 2023-09-24 18:31:52 发布

ZG_24

最新推荐文章于 2023-09-24 18:31:52 发布

阅读量318

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce wordcount

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZG_24/article/details/80344838

版权

Hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1. MapReduce编写入门

对于一个MapReduce程序，我们需要编写三个类。

第一个类是Mapper类，用于实现map的逻辑。

第二个类是Reducer类，用于实现reduce逻辑。

第三个类用来描述整个逻辑，来建立业务逻辑间的关联（map与reduce的关联）

1.1. Mapper类

import java.io.IOException;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

//4个泛型中，前两个是指定mapper输入数据的类型，KEYIN是输入的key的类型，VALUEIN是输入的value的类型

//map和 reduce 的数据输入输出都是以 key-value对的形式封装的

//默认情况下，框架传递给我们的mapper的输入数据中，key是要处理的文本中一行的起始偏移量，这一行的内容作为value

public class WCMapper extends Mapper<LongWritable, Text,Text, LongWritable>{

//mapreduce框架每读一行数据就调用一次该方法

@Override

protected void map(LongWritablekey, Text value,Context context)

throws IOException, InterruptedException {

//具体业务逻辑就写在这个方法体中，而且我们业务要处理的数据已经被框架传递进来，在方法的参数中 key-value

//key 是这一行数据的起始偏移量 value 是这一行的文本内容

//将这一行的内容转换成string类型

String line = value.toString();

//对这一行的文本按特定分隔符切分

String[] words = StringUtils.split(line, " ");

//遍历这个单词数组输出为kv形式 k：单词 v ： 1

for (String word : words){

context.write(new Text(word), new LongWritable(1));

}

}

1.2. Reduer类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable,Text, LongWritable>{

//框架在map处理完成之后，将所有kv对缓存起来，进行分组，然后传递一个组<key,valus{}>，调用一次reduce方法

//<hello,{1,1,1,1,1,1.....}>

@Override

protected void reduce(Textkey, Iterable<LongWritable>values,Context context)

throws IOException, InterruptedException {

long count = 0;

//遍历value的list，进行累加求和

for (LongWritable value:values){

count += value.get();

}

//输出这一个单词的统计结果

context.write(key, new LongWritable(count));

}

}

1.3. 作业描述类

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* 用来描述一个特定的作业

* 比如，该作业使用哪个类作为逻辑处理中的map，哪个作为reduce

* 还可以指定该作业要处理的数据所在的路径

* 还可以指定改作业输出的结果放到哪个路径

* @author zg

*

*/

public class WCRunner {

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

//封装任务参数，用job对象

Job wcjob = Job.getInstance(conf);

//设置整个job所用的那些类在哪个jar包，这样加载时也可以知道其他类（mapper）在哪个jar包

wcjob.setJarByClass(WCRunner.class);

//本job使用的mapper和reducer的类

wcjob.setMapperClass(WCMapper.class);

wcjob.setReducerClass(WCReducer.class);

//指定reduce的输出数据kv类型。如果reduce和map输出不一样，就要分开写，否则可以写在一起

wcjob.setOutputKeyClass(Text.class);

wcjob.setOutputValueClass(LongWritable.class);

//指定mapper的输出数据kv类型。如果reduce和map输出不一样，就要分开写，否则可以写在一起

wcjob.setMapOutputKeyClass(Text.class);

wcjob.setMapOutputValueClass(LongWritable.class);

//指定要处理的输入数据存放路径

FileInputFormat.setInputPaths(wcjob, new Path("hdfs://weekend110:9000/wc/srcdata/"));

//指定处理结果的输出数据存放路径

FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://weekend110:9000/wc/output3/"));

//将job提交给集群运行

wcjob.waitForCompletion(true);

}

}

2. 提交集群运行

（1）将项目生成jar包并上传服务器

（2）hadoop jar xxx.jar XXX(任务描述类路径全名称）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。