sphinx多索引排序

一直在使用sphinx做站内搜索,索引的模式是主索引 + 增量索引,做到准实时索引。使用增量索引的方式是新建一张辅助表。刚开始的设计是按照coreseek网站推荐的取最大的id进行更新增量索引。由于前期的需求不多,一直没发现有什么问题。在提出新的需求按时间排序时,问题就出现了,取最大的id进行增量索引的话,也只是索引数据表中增加的数据,不会索引已经更新的数据。

自然而然就想到了另外一种实现方式,即以最后的更新时间作为分界点,每次建增量索引时都判断更新时间是否大于上次建主索引时的最大更新时间。这种方式的好处就是,只要你数据有更新,就能实时的进行索引。

然而,这种方式上去后又出现了一个问题,多索引的排序问题。对于更新的数据,他们存在于主索引和增量索引中,搜索时的排序就会出现混乱。这就需要屏蔽主索引的相关数据。

解决方案是新增标志位与UpdateAttributes结合。

比如:主索引——>select id ,name,context, 1 as isdirty from table1;

增量索引——>select id,name,context,1 as isdirty from table1 where modifyTime > lastMaxModify;

Isdirty就是标志位,1代表未更新,2代表更新。

接下去就是利用UpdateAttributes把主索引的更新数据的isdirty更新为2。

如何找到主索引中已更新的数据呢?

找出在增量索引中的更新数据。简单的几句java代码:

Client.setFilterRange(“createTime”,0, maxModify.getTime()/1000);//创建时间在更新时间之前的;

SphinxResult res = Client.query(“”,”delta”);

attrs[0]=“isdirty”;values = new long[res.matches.length][ res.matches.length]

Client.updateAttribute(“main”,attrs,values);

得出它的所有docid,当做参数传给updateAttributes();

updateAttributes更新的数据时存放在内存中,索引如果用命令行search是搜索不到的,不过在程序中可以生效。

更新属性完成后,就只要在搜索时setFilter(“isdirty”,2,false);
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值