hadoop经典案例，倒排索引，数据去重，Topn

最新推荐文章于 2024-09-19 06:45:23 发布

司空良

最新推荐文章于 2024-09-19 06:45:23 发布

阅读量1.8k

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sgsgsgwe/article/details/125336714

版权

hadoop 专栏收录该内容

4 篇文章 3 订阅

订阅专栏

一、实验目的与要求

MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算。通过对MapReduce编程模型及实际案例进行深入实践。理解MapReduce的核心思想，掌握MapReduce的编程模型，掌握MapReduce的工作原理，掌握MapReduce常见编程组件的使用。

要求：1、认真理解MapReduce的编程模型以及工作原理，通过实践完成MapReduce相关编程操作。

2、结合实践内容和教材的相关章节完成实验报告。

二、实验内容

案例一倒排索引

1、Map阶段实现：InvertedIndexMapper.Java将文本中单词按照空格进行切割。

2、Combine阶段实现：InvertedIndexCombiner.java对每个文档单词进行词频统计。

3、Reduce阶段实现：InvertedIndexReducer.java接收上阶段输出，单词作为key，文档名称及词频作为value。

4、Driver程序主类实现：InvertedIndexRunner.java设置相应目录实现倒排索引。

案例二数据去重

1、Map阶段实现：DedupMapper.java读取数据集文件形成key-value。

2、Reduce阶段实现：DedupReducer.java接收上阶段输出，合并相同key。

3、Driver程序主类实现：DedupRunner.java设置相应目录实现数据去重。

案例三 TopN

1、Map阶段实现：TopNMapper.java读取数据集文件进行切割提取。

2、Reduce阶段实现：TopNReducer.java接收上阶段输出，取最大值，满足倒序。

3、Driver程序主类实现：TopNRunner.java设置相应目录实现TopN，其中N被设置为5。

三、实验环境

虚拟机软件：VMware Workstation 14

操作系统：Center OS 6.9

终端仿真程序：SecureCRT 8.3

Java版本：jdk 1.8.0_161

Hadoop版本：Hadoop 2.7.4

开发工具：Eclipse

四、实验过程记录

案例一倒排索引

1、Map阶段实现：InvertedIndexMapper.Java将文本中单词按照空格进行切割。

2、Combine阶段实现：InvertedIndexCombiner.java对每个文档单词进行词频统计。

3、Reduce阶段实现：InvertedIndexReducer.java接收上阶段输出，单词作为key，文档名称及词频作为value。

4、Driver程序主类实现：InvertedIndexRunner.java设置相应目录实现倒排索引。

案例二数据去重

1、Map阶段实现：DedupMapper.java读取数据集文件形成key-value。

2、Reduce阶段实现：DedupReducer.java接收上阶段输出，合并相同key。

3、Driver程序主类实现：DedupRunner.java设置相应目录实现数据去重。

案例三 TopN

1、Map阶段实现：TopNMapper.java读取数据集文件进行切割提取。

2、Reduce阶段实现：TopNReducer.java接收上阶段输出，取最大值，满足倒序。

3、Driver程序主类实现：TopNRunner.java设置相应目录实现TopN，其中N被设置为5。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

司空良 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。