对query建立索引的时候,可能输入的文件格式如下:
term1 term2|query|pv。。。。
考虑每个term对应的倒排链,可能不能将每个term的posting list保存下来,这时候就需要一种截断的方法,从而优化线上检索的性能。
一种可能的方法是:
1.首先将所有的行按照pv进行排序,sort就可以实现,sort –t”|” –k3rn
2.顺序读取每一行,将query写文件,并将offset保存到term1 ,term2对应的 posting list 中。
3.将每个term对应的posting list按照 offset从小到大进行排列,保留前N条写文件,这样能保证pv高的没有被过滤掉。
这样索引就建立完成了。
建索引优化的优化方法
最新推荐文章于 2022-06-17 00:30:00 发布