基于Hadoop的MR开发

最新推荐文章于 2024-04-28 22:57:02 发布

zakexu

最新推荐文章于 2024-04-28 22:57:02 发布

阅读量4.5k

点赞数 2

分类专栏：经验帖文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dream_catcher_10/article/details/46593045

版权

本文详细介绍了基于Hadoop的MapReduce开发，以词频统计为例，阐述Map和Reduce过程，以及标准的MapReduce程序结构。通过实例演示了Hadoop WordCount的实现步骤，包括源码编辑、编译、打包、执行和查看结果。

摘要由CSDN通过智能技术生成

（一）简介

1.MaprReduce分为Map过程与Reduce过程，我们以词频计算的例子来说明；假设需要统计文本“this is a small cat。that is a small dog”的词频：

（1）Map过程：将每个单词从文本中解析出来并生成key-alue对：<"this",1>,<"is",1>,<"a",1>,<"small",1>,<"cat",1>,<"that",1>,<"is",1>,<"a",1>,<"small",1>,<"dog",1>，其中key表示单词，value表示频数，允许相同的键值对多次出现；

（2）Reduce过程：合并同类项，也就是统计单词出现的最终频数：<"this",1>,<"is",2>,<"a",2>,<"small",2>,<"cat",1>，<"that",1>,<"dog",1>；

2.标准形式的MapReduce程序：一个Map的java文件，一个Reduce的java文件，一个负责调用的主程序Java文件；

3.基于Hadoop的WordCount的流程：

（1）调用hdfs命令行工具，将本地文本文件复制到hdfs上；

（2）用java写MapReduce代码，写完后调戏编译，然后打包成jar包；

（3）调用Hadoop命令，将jar包放在Hadoop集群上处理文本文件进行词频统计，然后将结果存放在指定的目录；

（4）调用hdfs命令行工具，查看处理结果；

（二）wordcount的实现

新建目录wordcount_01存放项目，子目录src存放java源码，子目录classes存放编译结果；源码包括TokenizerMapper.java，IntSumReducer.java，WordCount.java：

1.源码编辑

TokenizerMapper.java源码：

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop的MR开发

（一）简介1.MaprReduce分为Map过程与Reduce过程，我们以词频计算的例子来说明；假设需要统计文本“this is a small cat。that is a small dog”的词频：（1）Map过程：将每个单词从文本中解析出来并生成key-alue对：,,,,,,,,,，其中key表示单词，value表示频数，允许相同的键值对多次出现；（2）Reduce过程：合并同
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。