建索引优化的优化方法

对query建立索引的时候,可能输入的文件格式如下:

term1 term2|query|pv。。。。

      考虑每个term对应的倒排链,可能不能将每个term的posting list保存下来,这时候就需要一种截断的方法,从而优化线上检索的性能。

一种可能的方法是:

1.首先将所有的行按照pv进行排序,sort就可以实现,sort –t”|” –k3rn

2.顺序读取每一行,将query写文件,并将offset保存到term1 ,term2对应的 posting list 中。

3.将每个term对应的posting list按照 offset从小到大进行排列,保留前N条写文件,这样能保证pv高的没有被过滤掉。

这样索引就建立完成了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值