kudu使用bloom filter来加速join操作

最新推荐文章于 2022-10-25 15:30:27 发布

badboynt

最新推荐文章于 2022-10-25 15:30:27 发布

阅读量337

点赞数

分类专栏： EsgynDB kudu学习笔记文章标签：大数据

本文链接：https://blog.csdn.net/badboynt/article/details/126368190

版权

EsgynDB 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

kudu学习笔记

7 篇文章 0 订阅

订阅专栏

kudu支持bloom filter，这是一个很强大的功能。bloom过滤器本身的原理不在这里阐述，这里我比较感兴趣的是用bloom 过滤器来加速hash join的优化。

一个典型的场景下，一张大表和一张小表进行hash join，分为以下三步：
1.将小表数据全部读出，在内存里构建hash table
2.将hash table广播到所有工作节点
3.所有工作节点开始读大表，并将每条记录与hash table做比对，返回匹配的行

在以上步骤中，3是负载最终的操作，尤其是当工作节点与表的实际存储位置不在同节点上时，还会产生大量的网络IO。Bloom filter可以用在这里，减少对大表的IO操作。具体做法时在第一步读小表数据时，使用小表的数据产生一个bloom filter（首先使用KuduBloomFilterBuilder 类产生一个KuduBloomFilter 对象，然后用 KuduBloomFilter::Insert()接口将小表join列的每一行数据插入）。再将这个bloom filter传递到负责读大表的工作节点，并下推到kudu引擎。这样kudu在读大表时，就自动将不匹配bloom filter的数据过滤掉，不再回传给负责读大表的工作节点。通常情况下，这样可以极大的减少IO，提高性能。

根据kudu自己的测试，在应用了bloom filter来加速hash join之后，在不同场景下有大约3-15倍的性能提升。我觉得这是在kudu自己构造的场景下才有如此巨大的提升。如果换个场景，比如两张大表的hash join，而且数据比例接近1比1，也就是说淘汰不了太多数据的话，这个优化应该提升不大，甚至有副作用。但总体来说确实是一个很厉害的优化技术。目前正尝试在EsgynDB中实现该优化。