sensei indexing via hadoop

构建索引一般是比较费时费力的过程,如果能通过hadoop分布式构建索引就方便了很多。
基于sensei的索引都是分shard的,通过sensei提供的工具类,可以在hadoop集群中分shard构建索引,下面简单介绍一下,因为没有文档,只是简单过了一下source code:

1 定义properties文件,定义配置选项
PropertiesLoader可以生成配置文件类Configuration

2 自定义的job类要继承MapReuceJob, 调用MapReuceJob.createJob()方法可以得到JobConf对象,JobConf对象是hadoop可运行的任务。

MapReuceJob.createJob方法比较重要,它会读取第一步生成的Configuration类,进行一系列初始化操作,并生成可运行的JobConf对象。

createJob方法最重要的工作就是生成shards(分区),一般来说,shards的数量是配置文件中配置好的,但是为了充分利用hadoop集群的性能,不光要考虑到sensei的node数量,也要考虑到hadoop集群中reducer的理论最大数量。Shard类是一个比较重要的类,但是对使用者透明。

关于hadoop任务的任何配置信息的处理过程都可以在MapReuceJob.createJob方法中找到。

3 SenseiMapper类,它在初始化的时候要构建这几样东西:
Shard[], 从JobConf中读取已经在第二步构建好的shards属性,重新构建。
ShardingStrategy 分区策略,用户要自己实现这个接口,mapper会使用这个进行分区
MapInputConverter 预处理mapper的输入,用户也要自己实现这个接口,把文本内容返回成JSONObejct格式的内容。
DefaultJsonSchemaInterpreter, 这个类会读取sensei的schema文件,这样在知道如何根据schema中的定义对jsonObject进行索引
Analyzer分词器,我们要使用自己的中文分词器(!?)

mapper的输出格式是Shard和IntermediateFrom, 比较重要的数据结构。不同的分区的document此时已经按Shard为key分发到不同的reducer上面,这样reducer就可以直接进行写文件了。(这个思路可以用于以后我们自己写分布式系统的时候)

4 SenseiCombiner
5 SenseiReducer, 使用IndexWriter写索引的过程了,比较简单。

先这样,再补充
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值