sensei indexing via hadoop

最新推荐文章于 2024-07-17 17:53:42 发布

max_198642

最新推荐文章于 2024-07-17 17:53:42 发布

阅读量78

点赞数

分类专栏： sensei 文章标签：大数据数据结构与算法

本文链接：https://blog.csdn.net/max_198642/article/details/84287884

版权

sensei 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

构建索引一般是比较费时费力的过程，如果能通过hadoop分布式构建索引就方便了很多。
基于sensei的索引都是分shard的，通过sensei提供的工具类，可以在hadoop集群中分shard构建索引，下面简单介绍一下，因为没有文档，只是简单过了一下source code:

1 定义properties文件，定义配置选项
PropertiesLoader可以生成配置文件类Configuration

2 自定义的job类要继承MapReuceJob, 调用MapReuceJob.createJob()方法可以得到JobConf对象，JobConf对象是hadoop可运行的任务。

MapReuceJob.createJob方法比较重要，它会读取第一步生成的Configuration类，进行一系列初始化操作，并生成可运行的JobConf对象。

createJob方法最重要的工作就是生成shards(分区)，一般来说，shards的数量是配置文件中配置好的，但是为了充分利用hadoop集群的性能，不光要考虑到sensei的node数量，也要考虑到hadoop集群中reducer的理论最大数量。Shard类是一个比较重要的类，但是对使用者透明。

关于hadoop任务的任何配置信息的处理过程都可以在MapReuceJob.createJob方法中找到。

3 SenseiMapper类，它在初始化的时候要构建这几样东西：
Shard[], 从JobConf中读取已经在第二步构建好的shards属性，重新构建。
ShardingStrategy 分区策略，用户要自己实现这个接口，mapper会使用这个进行分区
MapInputConverter 预处理mapper的输入，用户也要自己实现这个接口，把文本内容返回成JSONObejct格式的内容。
DefaultJsonSchemaInterpreter, 这个类会读取sensei的schema文件，这样在知道如何根据schema中的定义对jsonObject进行索引
Analyzer分词器，我们要使用自己的中文分词器（！？）

mapper的输出格式是Shard和IntermediateFrom, 比较重要的数据结构。不同的分区的document此时已经按Shard为key分发到不同的reducer上面，这样reducer就可以直接进行写文件了。（这个思路可以用于以后我们自己写分布式系统的时候）

4 SenseiCombiner
5 SenseiReducer, 使用IndexWriter写索引的过程了，比较简单。

先这样，再补充

max_198642

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sensei indexing via hadoop

构建索引一般是比较费时费力的过程，如果能通过hadoop分布式构建索引就方便了很多。基于sensei的索引都是分shard的，通过sensei提供的工具类，可以在hadoop集群中分shard构建索引，下面简单介绍一下，因为没有文档，只是简单过了一下source code:1 定义properties文件，定义配置选项PropertiesLoader可以生成配置文件类Configu...
复制链接

扫一扫