Tair LDB基于Prefixkey的范围查找性能优化项目之如何使用prefix bloomfilter进行过滤

最新推荐文章于 2024-02-28 02:05:59 发布

小敏纸

最新推荐文章于 2024-02-28 02:05:59 发布

阅读量2.6k

点赞数 1

分类专栏：开源夏令营文章标签： tair bloomfilter get_range prefix key 性能优化

本文链接：https://blog.csdn.net/lanxuezaipiao/article/details/39080175

版权

本文探讨了在Tair LDB中，通过prefix bloomfilter优化get_range接口的性能，以减少不必要的磁盘IO操作。在get_range过程中，通过在读取block之前进行bloomfilter过滤，提高了查找效率。文章详细阐述了优化的实现步骤，包括在什么时机应用过滤、如何获取和使用prefix bloomfilter，以及在不同阶段遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

项目是按照“Tair LDB基于Prefixkey的范围查找性能优化项目提议方案”的步骤一步步完成的，目前已经解决了前面两个问题：

如何获取key的prefix_size问题“Tair LDB基于Prefixkey的范围查找性能优化项目之如何提取key的prefix_size”。
如何建立prefix bloomfilter“Tair LDB基于Prefixkey的范围查找性能优化项目之如何建立prefix bloomfilter”

今天来继续解决最后一个关键问题。在提案中有以下描述：

在get_range接口中，如果查找到了sstable这里（先查memtable和immutable memtable，两者没有磁盘IO操作），

（1）首先根据[pkey+skey,pkey+end]的范围查找可能的sstfiles。

（2）对于每一个file，对dataindex block里的信息继续进行范围查找，找到可能包含[pkey+skey,pkey+end]这个范围的blocks。

（3）在读每一个block之前，获取filter block中存储的filter，通过prefix的MayMatch方法判断该block是否包含前缀pkey，如果不包含，则直接跳过这个block，这样就通过prefix bloomfilter实现了block过滤，从而减少了不必要的磁盘IO操作。

从编码角度讲，这里有很多待解决的关键问题，下面列举几个：

如何正确定位“读每一个block之前”？
如何获取filter block中事先存储的prefix bloomfilter？
如何正确使用prefix bloomfilter？
……

首先解决的是第一个问题：get_range的过程中什么时候开始读block，我们要在读之前进行拦截，加上bloomfilter过滤代码。

由于get_range中key的查找遍历在存储层面上统一通过Iterator的方式处理。其查找过程为：memtable Iterator —> sstable Iterator —> block Iterator。我们需要在block Iterator之前使用prefix bloomfilter以实现block过滤。block Iterator的具体调用在sstable Iterator最后，由two_level_iterator.cc的Seek()函数实现，如下：

void TwoLevelIterator::Seek(const Slice& target) {
    
    index_iter_.Seek(target);                                                   
    InitDataBlock(target);
    if (data_iter_.iter() != NULL) {
    
        data_iter_.Seek(target);
    }
    SkipEmptyDataBlocksForward();
}

具体流程为：
a) index_iter_.Seek(),得到index_iter_.Value(),即key所在data的index信息data_block_handle_。
b) InitDataBlock()，根据index_block_handle_，调用hook函数，获得对应data的data_iter_。
c) data_iter_->Seek()，定位到要找的key。
d) SkipEmptyDataBlocksForward()，如果获得的data_iter是无效的，那么需要不断尝试下一个data并定位到其最开始(已经满足Seek条件)，直到找到合法的data。

一开始我的想法是：block Iterator的获得在b步骤中，我们需要在其获得之前使用prefix bloomfilter过滤一下，因此我在a和b步骤之间添加了下面过滤语句：

if (index_iter_.Valid()) {
    
    Slice handle_value = index_iter_.value();
    const char* key_data = target.data();
    const char *ptr = strchr(key_data + LDB_KEY_META_SIZE + 2, 0);
    int prefix_size = ptr + 1 -  key_data;