sphinx+python 索引耗内存

最新推荐文章于 2021-01-28 14:57:12 发布

iteye_10796

最新推荐文章于 2021-01-28 14:57:12 发布

阅读量254

点赞数

分类专栏：搜索 python 文章标签： python 大数据

搜索同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

python

2 篇文章 0 订阅

订阅专栏

搜索一直用的是coreseek，数据源方面用的是python，以前数据量少的时候没问题，数据量一大，用python建索引就出现问题。

未做优化前，python建索引的过程的第一步就是先捞出所有的数据放内存，这也是官网文档的做法，数据量一大，必然导致占用内存过大，导致进程终止或者服务器负载过高。

实际数据：200W，在执行python数据源时，内存达到2g以上。

优化后的数据：内存维持在427M，没有继续增长。

原先的python的代码把sql的查询都放在def Connected(self)方法，一次性全部查询出来后使用def NextDocument(self)遍历。

现把查询语句调到NextDocument(self)方法中。
基本思路如下：
1. 先查询出该表的最大id值
2.对查询进行分页，比如10页，limit = maxId/10
3.第一次执行NextDocument或者执行次数是limit 的倍数的时候，执行sql查询，把查询结果出分页结果集
4.循环遍历结果集
5.分页次数到达11页时，return False。

此方法基本可以保证大数据量下建索引没有内存问题。