YDB针对范围查找所做的性能小改进（skiplist IO 分析）

最新推荐文章于 2023-03-16 22:10:33 发布

qq_33160722

最新推荐文章于 2023-03-16 22:10:33 发布

阅读量762

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33160722/article/details/54782969

版权

范围查找，尤其是时间范围的查找，在日常检索中会被经常使用，在范围查找中跳跃表的利用与否对性能影响非常大。

我们对lucene的默认范围查找做了一个小实验，截获了每种SQL的IO读取明细，对IO情况做了测试与分析。

测试结果如下

普通的等值SQL分析-占用IO较小

筛选条件为：phonenum='13470881895' and amtdouble=50

使用小范围的 term扫描（IO也较小）

筛选条件为：phonenum='13470881895' and amtdouble like '([50 to 50])'

使用大范围的term扫描（IO非常大，超出想象）

筛选条件为：phonenum='13470881895' and (amtdouble>='50' or amtdouble<='50')

amtlong采用的数据类型为tlong类型，已经尽量通过tree的层次结构减少了term的个数，但是没想到，doclist本很成为瓶颈。

doclist用来存储一个term对应的doc id的列表，由于数据量很大，有些term可能达数亿甚至几十亿个。

问题分析

我们在上述查找中，都限定了手机号码，理论上，只要利用了skiplist的跳跃功能（lucene中对应advance方法），IO会很小，但是明显第三种测试的IO超出了我们的预期。

对于文档数量较少的范围查找,是否使用了跳跃功能对性能影响不大，但是YDB的场景更偏重大数据场景，倒排表对应的skiplist会特别长，如果没有使用跳跃功能就会出现上面那种一个查询耗费几个GB的IO的情况，严重影响查询性能。

我们针对每个IO，打印出详细的函数调用关系，验证我们的推测。

前两种情况均使用了advance。

第三种情况没有advance,而是采用了暴力遍历的方式，所以IO特别巨大，我们通过源码分析到了具体原因，超过16个term后，lucene默认就不会继续使用skiplist了。

如何解决？

lucene这样优化是有明显的原因的，即当term数量特别多的时候，跳跃的功能会带来更多的随机读，相反性能会更差。

但显然对于海量数据的情况下不适用，因IO巨大导致检索性能很慢，YDB针对范围查找做了如下的变更改动

16个term真的太小太小，我们更改为1024个，针对tlong,tint,tfloat,tdouble类型的数据将会有特别高的扫描性能。

大多时候term对应的skiplist也是有数据倾斜的，尤其是tlong,ting,tfloat,tdouble类型本身的分层特性。对于有数据倾斜的term我们要区别对待，对于skiplist很长的term采用跳跃功能能显著减少IO，对于skiplist很短的term则采用顺序读取，遍历的方式，减少随机读。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YDB针对范围查找所做的性能小改进（skiplist IO 分析）

范围查找，尤其是时间范围的查找，在日常检索中会被经常使用，在范围查找中跳跃表的利用与否对性能影响非常大。我们对lucene的默认范围查找做了一个小实验，截获了每种SQL的IO读取明细，对IO情况做了测试与分析。测试结果如下普通的等值SQL分析-占用IO较小筛选条件为：phonenum='13470881895' and amtdouble=50使用小范围
复制链接

扫一扫

qq_33160722 CSDN认证博客专家 CSDN认证企业博客

码龄8年

56: 原创

154万+: 周排名

179万+: 总排名

13万+: 访问

: 等级

1814: 积分

44: 粉丝

40: 获赞

14: 评论

64: 收藏

私信

关注

热门文章

最新评论

基于spark的车辆分析
仙姝: hphm 车牌号 kkbh 卡扣编号 jgsj 时间？ jgsk 时间？ quyu 区域其中jgsj和jgsk分别是什么时间啊？
YDB与spark SQL在百亿级数据上的性能对比测试
weixin_44150938: YDB的表，在创建外部表时，创建了1张排序表，1张非排序表，然后查询时自动识别有排序字段，去查了已排好序的表。这有比较性。我SPARK也创建两张表，一张排序好的，一张未排序的，再试试呢？
YDB与spark SQL在百亿级数据上的性能对比测试
daodao072: 都是单表，没有列出来子查询和多表复杂查询，甚至连两表的join 都没有，如果能够列出一些复杂sql的性能，才更具有说服力
20170405YDB资源汇总
zhugehengheng: 为啥都404了呢
记一次kafka数据丢失问题的排查
奋斗青年myl: mark

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。