全文检索之sphinx源码分析--优化

最新推荐文章于 2021-03-12 18:31:54 发布

pzlpy

最新推荐文章于 2021-03-12 18:31:54 发布

阅读量565

点赞数

分类专栏：全文检索文章标签： sphinx 全文检索源码索引优化

本文链接：https://blog.csdn.net/pzlpy/article/details/77796058

版权

全文检索专栏收录该内容

5 篇文章 0 订阅

订阅专栏

以下的优化措施都是基于我当前的项目做得，目的是为了提升系统效率和减少资源消耗，系统不同需求不同，所以只能是仅供参考。

Indexer优化

1、减少数据库压力，修改从数据库中取数据为从文本中取数据，需要在编译的时候加入xml选项并且安装libexpat。但是通过测试实在不推荐这种用法，因为libexpat这东西十分脆弱，必须对xml输入的数据进行遍历清洗，同时如果xml的数据里也有xml类似的格式很可能解析崩溃。因此建议自己封装二进制文件来做，代码下期再更好了。这里说一下需要重点关注的点：首先是索引数据不入库直接发送给sphinx，这会造成数据的冗余，也就是说原来就是一份数据入库后再建索引，而现在是两份数据一份入库一份写文件给sphinx，但是也带来了一个好处就是索引和入库同时完成，为了保证sphinx建索引不对系统造成过大压力我们选择将索引的文件放到内存盘里，同时改写sphinx让它在处理完一个文件后再disconnect函数里把这个文件删掉以免文件夹写满了。

2、采取xml模式的时候可以修改indexer原来的popen执行xmlcmd来取数据，改为xmlcmd只有文件名，然后用open（不是fopen）来读取数据，最后可以将时间减少为原来的1/3~1/4，这里看来direct的IO减少了buf调用还是效率更高的。

3、调整分词符号，默认的由于ngram_chars和charset_table字段的配置进行了映射和转换，sphinx只识别下划线_作为有效符号，其他的所有符号都视为空格做切分用，粗略的讲ngram_chars标识所有indexer可以识别的utf8号，而charset_table做映射，可以将ASCII256个符号重新映射（也就是可以强制indexer将字符识别成别的字符，例如所有A识别成X，因此这里可以配置不被转换成空格的符号，当然仅限ASCII），所以如果对ascII分词符有需求的可以在ngram_chars里进行设置

Searchd优化

1、sphinx可以方便的指定创建的索引文件的文件名，我们利用了这个点，将每个索引文件维护的数据的获取时间范围最小和最大的capture_time记录到了索引文件名上，此时由于索引文件名就是时间范围，因此入库和查询语句中我们指定了这个capture_time作为id，利用这个id进行索引文件的不查询：

具体来说我们在建索引的时候指定id字段为capture_time的值，在检索的时候我们可以指定（XXX-id） as YYY，然后在where条件里指定YYY>time1 and YYY<time2，修改代码在RunSubset（）函数里就可以取得这个filter条件，现在我们有了每个索引文件名（可以认为是这个索引文件维护的数据范围）和filter条件，如果这个filter条件是准确的那么我们遍历每个索引文件，不在这个filter范围的从local的容器里弹出去就好了。

2、同时由于文件名是时间范围，因此可以进行优化，在runlocalsearch函数对所有的索引文件进行文件名也就是时间倒排，然后逐个查询，如果查到某个索引文件可以得到10000条记录，此时会记录查过的所有索引文件的时间范围，然后向后查询时就只查该时间范围有交集的索引文件了。

3、前台需要保证按天切片进行查询并缓存结果，实时向用户显示。

4、对所有的n叉树中的第一层与操作进行检查，如果任何一个与操作的子关键字没有命中，则不查了，这部分代码优化其实面对的应用场景是用户下了多个关键字进行查询同时其中有一个或几个实际上命中很少的，不做优化则sphinx会从索引文件中直接取所有的关键字然后遍历、取交际，然后返回一个空集，这个空集消耗的时间甚至可能比有命中的返回结果集消耗时间都长，十分反人类。

5、由于IO争抢的问题，searchd同一台机器上的的并行效果很差，因此不建议在同一台机器上开多个searchd进行这种级别的并行，可以直接在远程的机器上开端口布上分布式的索引服务。

pzlpy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
全文检索之sphinx源码分析--优化

以下的优化措施都是基于我当前的项目做得，目的是为了提升系统效率和减少资源消耗，系统不同需求不同，所以只能是仅供参考。Indexer优化 1、减少数据库压力，修改从数据库中取数据为从文本中取数据，需要在编译的时候加入xml选项并且安装libexpat。但是通过测试实在不推荐这种用法，因为libexpat这东西十分脆弱，必须对xml输入的数据进行遍历清洗，同时如果xml的数据里也有xml
复制链接

扫一扫