hadoop_mapreduce_wordcount例子

最新推荐文章于 2023-05-23 09:58:46 发布

qq_41665356

最新推荐文章于 2023-05-23 09:58:46 发布

阅读量248

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41665356/article/details/80254383

版权

hadoop 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1. Wordcount例子

1) 数据流：

2) Map

Map需要派生自map，四个参数为k1,v1,k2,v2的数据类型

package com.harvetech.service;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

// k1 v1 k2 v2

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

@Override

protected void map(LongWritable k1, Text v1, Context context)

throws IOException, InterruptedException {

/*

* context代表Map的上下文

* 上文：HDFS

* 下文是：Reducer

*/

//数据: I love Beijing

String data = v1.toString();

//分词

String[] words = data.split(" ");

//输出: k2 v2

for(String w:words){

context.write(new Text(w), new LongWritable(1));

}

}

}

3) Reduce

Reduce类需要派生自reducer类，四个参数分别为k3,v3,k4,v4的类型

package com.harvetech.service;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

// k3 v3 k4 v4

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

@Override

protected void reduce(Text k3, Iterable<LongWritable> v3,Context context) throws IOException, InterruptedException {

/*

* context 代表Reducer上下文

* 上文：mapper

* 下文：HDFS

*/

long total = 0;

for(LongWritable l:v3){

total = total + l.get();

}

//输出 k4 v4

context.write(k3, new LongWritable(total));

}

}

4) Main

在main方法中关联map和reduce创建job，

package com.harvetech.service;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountMain {

public static void main(String[] args) throws Exception {

//创建一个job = mapper + reducer

Job job = Job.getInstance(new Configuration());

//指定job的入口

job.setJarByClass(WordCountMain.class);

//指定任务的mapper和输出数据类型

job.setMapperClass(WordCountMapper.class);

job.setMapOutputKeyClass(Text.class); //指定k2的类型

job.setMapOutputValueClass(LongWritable.class);//指定v2的数据类型

//指定任务的reducer和输出数据类型

job.setReducerClass(WordCountReducer.class);

job.setOutputKeyClass(Text.class);//指定k4的类型

job.setOutputValueClass(LongWritable.class);//指定v4的类型

//指定输入的路径和输出的路径

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

//执行任务

job.waitForCompletion(true);

}

}

5) 打jar包

右键项目打jar包，第一二步默认，第三步选择执行的main方法类：

6) 执行

和之前的demo一样，在hdfs中准备数据文件，将jar包从本机导入到hadoop集群主节点机器。

hadoop jar mapreduceTest.jar /input/wordcountTestData.txt /output/wordcountResult-fake-cluster3

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop_mapreduce_wordcount例子

1. Wordcount例子1) 数据流： 2) MapMap需要派生自map，四个参数为k1,v1,k2,v2的数据类型 package com.harvetech.service;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import ...
复制链接

扫一扫

专栏目录

qq_41665356 CSDN认证博客专家 CSDN认证企业博客

码龄6年

273: 原创

52万+: 周排名

223万+: 总排名

60万+: 访问

: 等级

6717: 积分

56: 粉丝

72: 获赞

36: 评论

302: 收藏

私信

关注

热门文章

分类专栏

最新评论

phoenix_编码问题
_pangpang: 这是版本问题吗
hbase_数据备份（导入/导出）
zhaodaola: 导入前创建表(create)的时候建议将列族选项也加上，否则两个表的压缩、分区等属性可能出现差异。可以参考这篇 https://bjzhanghao.com/p/3045
springboot-集成spark
阿森阿森: 贴代码也只贴了一点
hbase_使用中遇到的问题（reginserver节点挂掉）
壮士某某某: 文章很好
phoenix_事务支持
phphappy_810528:

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。