索引过程-merge index

是的,这部分没有使用job,这点我也想到了:)

 

功能:

将由之前多个reduces index后(严格来说是dedup后)进行索引 合并 ;

将dedup后的deleted flags index进行清除;

 

也许会问,为什么要合并 呢?对了,对于构建一个分布式搜索系统来说这一步是不需要的,严格来说是"no"的,因为这步是作用一个intract net crawler 来作为最后一步处理的。

 

过程:

将hdfs/local上的多份索引添加 到inexwriter中;

调用lcuene内置的merger;

将生成的索引 写入local tmp下,再move 到hdfs(如果使用hdfs)

 

其中第一步不会将hfds上的所有文件download到本地,lucene读hdfs文件的方式如同读本地一样,只要提供一个连续的数据流即可。之前看到有人说hfds文件不可以并行读取? 其实觉得这是不太必要的,因为默认都是64m/block,再者它本身也提供也定位查询功能,可以把remote上的files作为本地files来考虑即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值