sphinx+python 索引耗内存

搜索一直用的是coreseek,数据源方面用的是python,以前数据量少的时候没问题,数据量一大,用python建索引就出现问题。

未做优化前,python建索引的过程的第一步就是先捞出所有的数据放内存,这也是官网文档的做法,数据量一大,必然导致占用内存过大,导致进程终止或者服务器负载过高。

实际数据:200W,在执行python数据源时,内存达到2g以上。

优化后的数据:内存维持在427M,没有继续增长。

原先的python的代码把sql的查询都放在def Connected(self)方法,一次性全部查询出来后使用def NextDocument(self)遍历。

现把查询语句调到NextDocument(self)方法中。
基本思路如下:
1. 先查询出该表的最大id值
2.对查询进行分页,比如10页,limit = maxId/10
3.第一次执行NextDocument或者执行次数是limit 的倍数的时候,执行sql查询,把查询结果出分页结果集
4.循环遍历结果集
5.分页次数到达11页时,return False。

此方法基本可以保证大数据量下建索引没有内存问题。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值