Hadoop 例子之 WordCount

最新推荐文章于 2019-07-31 15:59:55 发布

dreamsofa

最新推荐文章于 2019-07-31 15:59:55 发布

阅读量441

点赞数

分类专栏： hadoop 文章标签： hadoop 例子 wordcount

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamsofa/article/details/47776273

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

WordCount

对hadoop例子WordCount进行代码分析学习。

注：本文仅为学习笔记，中间会包含从网络或其他出处获取的资料，文后会标注出处，若有遗漏，麻烦提醒以便修订，敬请原谅

作用

计算文件中各个词出现的次数。

Map

publicstaticclass TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

privatefinalstatic IntWritable one = new IntWritable(1);

private Text word = new Text();

publicvoid map(Object key, Text value, Context context

) throws IOException, InterruptedException {

StringTokenizer itr = new StringTokenizer(value.toString());

while (itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word, one);

}

}

}

1. 继承自org.apache.haddop.mapreduce.Mapper类，覆盖实现public voidmap(Object key,Text value,Context context) throwsIOException,InterruptedException方法。

2. 输入的key为偏移量，value为每行文本，context为上下文操作对象。

3. 输出为每一个词<word,1>的键值对。

4. 泛型Object,Text,Text,IntWritable分别为输入键类型，输入值类型，输出键类型，输出值类型。

Combiner和reducer

publicstaticclass IntSumReducer

extends Reducer<Text,IntWritable,Text,IntWritable> {

private IntWritable result = new IntWritable();

publicvoid reduce(Text key, Iterable<IntWritable> values,

Context context

) throws IOException, InterruptedException {

intsum = 0;

for (IntWritable val : values) {

sum += val.get();

}

result.set(sum);

context.write(key, result);

}

}

1. 继承自org.apache.hadoop.mapreduce.Reducer,覆盖实现了public voidreduce(Text key,Iterable<IntWritable> values, Context context) throwsIOException, InterruptedException方法

2. 输入的key 为词，values为map中生成的该词每出现一次的值1的列表。

3. 输出为<word,count>,count即为最终结果

4. Text,IntWritable,Text,IntWritable，分别为reduce或combiner输入的键类型，输入值类型，输出键类型，输出值类型。

主函数

publicstaticvoid main(String[] args) throws Exception {

Configuration conf = new Configuration(); //1

String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

if (otherArgs.length < 2) {

System.err.println("Usage: wordcount <in> [<in>...] <out>");

System.exit(2);

}

Job job = Job.getInstance(conf, "word count"); //2

job.setJarByClass(WordCount.class); //3

job.setMapperClass(TokenizerMapper.class); //4

job.setCombinerClass(IntSumReducer.class); //5

job.setReducerClass(IntSumReducer.class); //6

job.setOutputKeyClass(Text.class); //7

job.setOutputValueClass(IntWritable.class); //8

for (inti = 0; i < otherArgs.length - 1; ++i) {

FileInputFormat.addInputPath(job, new Path(otherArgs[i])); //9

}

FileOutputFormat.setOutputPath(job,

new Path(otherArgs[otherArgs.length - 1]));//10

System.exit(job.waitForCompletion(true) ? 0 : 1); //11

}

1. 创建conf实例用于生成Job实例

2. 使用conf实例创建Job实例

3. 通过类来设置应用的Jar

4. 设置mapper类

5. 设置Combiner类

6. 设置Reducer类

7. 设置最终输出的键类型

8. 设置最终输出的值类型

9. 添加输入文件路径

10. 设置输出文件路径

11. 等待Job完成

总结

Map-reduce应用组成：

1. 确认输入和输出的最终键类型和值类型，开发Mapper和Reducer

2. 入口函数配置Mapper,Combiner,Reducer,最终输出键类型，最终输出值类型，添加输入文件路径，设置输出文件路径，提交任务

输入和输出文件的设置

FileInputFormat.addInputPath(job, new Path(otherArgs[i]));

FileOutputFormat.setOutputPath(job,new Path(otherArgs[otherArgs.length - 1]))

任务的提交

Job.submit()

Job.waitForCompletion(Boolean)

引用：

1. 文中代码引用自Hadoop 2.7.0 自带例子：org.apache.hadoop.examples.WordCount

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 例子之 WordCount

WordCount 对hadoop例子WordCount进行代码分析学习。注：本文仅为学习笔记，中间会包含从网络或其他出处获取的资料，文后会标注出处，若有遗漏，麻烦提醒以便修订，敬请原谅作用计算文件中各个词出现的次数。 Mappublicstaticclass TokenizerMapper extend
复制链接

扫一扫

专栏目录

dreamsofa

CSDN认证博客专家 CSDN认证企业博客

码龄17年

53: 原创

6万+: 周排名

18万+: 总排名

6万+: 访问

: 等级

1185: 积分

27: 粉丝

25: 获赞

4: 评论

18: 收藏

私信

关注

热门文章

分类专栏

官方翻译 1篇
hadoop 2篇
zookeeper 4篇
翻译 6篇
linux 1篇
分布式服务 1篇
设计 1篇
缺陷管理 1篇
java 14篇
redis 9篇
netty 2篇

最新评论

Spring AOP 详解及@Trasactional
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
GraalJS及平台JS脚本能力建设
手法king: 通俗易懂，简洁明了，学到了，必须顶起来支持博主！
Redis --- Redis Cluster
王如霜: 了解了
ZooKeeper - O'Reilly Media ----Zookeeper Internals (1)
普通网友: 隐形云真是个不错的好东西，云安全这个潜力很大，互联网时代大多数人都喜欢把各种资料存放在网上，存储东西方便快捷安全，所以投资这个还是很有必要的。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。