Hadoop之MapReduce-倒排索引案例

本文详细介绍了使用Hadoop MapReduce实现倒排索引的案例。通过地图和化简阶段,统计每个单词在不同文本文件中出现的次数,并在Reducer阶段生成倒排索引。具体步骤包括Map阶段的上下文写入,Combiner阶段的数据聚合,以及Reducer阶段的最终结果输出。代码运行后,输出了单词及其在各文件中的分布情况。
摘要由CSDN通过智能技术生成

一、问题描述

        统计每个单词在各个文件中出现的次数。

二、所给数据

       1. 输入数据:

         a.txt:                      b.txt

         hello tom            hello jerry
         hello jerry           hello tom
         hello kitty            hello world
         hello world
         hello tom

        2.输出数据

         hello   a.txt->5 b.txt->3
         jerry    a.txt->1 b.txt->1
         tom     a.txt->1 b.txt->2
         world  a.txt->1 b.txt->1
         kitty      b.txt->1

三、问题思路(在伪分布式模式下ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值