用MapReduce实现倒排索引（多job串联）

最新推荐文章于 2021-03-20 16:30:35 发布

乌镇风云

最新推荐文章于 2021-03-20 16:30:35 发布

阅读量660

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43087634/article/details/85270433

版权

本文介绍了如何利用MapReduce技术来实现倒排索引的构建过程。通过两个连续的MapReduce任务，将大量文本文件中的字段统计并组织成倒排索引，以便于后续的搜索。在案例中，详细展示了每个阶段的输出结果及代码实现。

摘要由CSDN通过智能技术生成

需求：有大量的文本（文档、网页），需要建立搜索索引
所谓倒排索引就是把多个文件的字段进行逐次统计，进行展示。
比如说一个test文件夹下有多个文件：a.txt b.txt c.txt
a.txt 中的字段为： ni ss ni
b.txt 中的字段为：ni dd ni
c.txt 中的字段为：ni hao ss
(1),第一次MapReduce方法预期输出为
dd–b.txt 1
hao–c.txt 1
ni–a.txt 2
ni–b.txt 2
ni–c.txt 1
ss–a.txt 1
ss–c.txt 1
(2).第二次MapReduce的预期输出为
dd b.txt–>1
hao c.txt–>1
ni a.txt–>2 b.txt–>2 c.txt–>1
ss a.txt–>1 c.txt–>1

1.第一次MapReduce代码实现为

import java.io.IOException;
import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
public class OneIndexMapper extends Mapper<LongWritable, Text, Text , IntWritable>{ String name;
Text k = new Text();
IntWritable v

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

乌镇风云 CSDN认证博客专家 CSDN认证企业博客

码龄6年

27: 原创

105万+: 周排名

181万+: 总排名

12万+: 访问

: 等级

914: 积分

36: 粉丝

57: 获赞

17: 评论

325: 收藏

私信

关注

热门文章

最新评论

HDFS和MapReduce工作原理
树友: 图不够清晰啊
RDD和DataFrame和DataSet三者间的区别
weixin_53451551: 头一次听说 rdd是和ml 一起使用的，DataFrame与Dataset一般不与spark ml同时使用。大哥劝你不懂就别写，丢人呢，spark-ml从feature部分就和dataframe息息相关全部都是操作df的，到了model部分更是依赖于df的的fit和transform算子的。
RDD和DataFrame和DataSet三者间的区别
tigerricky2010: 我觉得df是知道字段名称和属性的，但由于类型是row,所以你不能直接访问属性，要经过转换才行，转换不安全。而ds是强类型，所以可以直接使用属性名称，操作起来更方便，而且安全。
RDD和DataFrame和DataSet三者间的区别
weixin_41836935: 大佬 df进行select可以用udf将某个字段的类型转Int类型吗还是不体现 ds呢比如表结构 id name id中就直接是1 但默认是String 要存入表里的时候要怎么将1变成整型
RDD和DataFrame和DataSet三者间的区别
SourceCoder__: 我现在的理解是DS每行是类在java和Scala里面可以方便取各个filed的属性受语言限制而DF则不方便取和python不一样

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。