Parquet学习与使用之BloomFilter的应用

靖源

已于 2023-03-08 10:48:24 修改

阅读量813

点赞数

分类专栏： Parquet 文章标签： Parquet java OLAP

于 2023-03-06 20:13:48 首次发布

本文链接：https://blog.csdn.net/qyanqing/article/details/129369588

版权

Parquet 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在前面

最近在自己做自定义的OLAP系统，文件格式上用的是Parquet，但是发现Parquet各个API的示例代码很少。所以就打算把这个系列的文章写一下。

1. Parquet的Filter

Parquet的过滤支持两大类，一类是基于Footer中的元数据进行RowGroup级别的过滤；这种过滤能够实现减少IO的目的，它通过元数据里的信息直接可以实现跳过RowGroup的读取。
另一类是对每一行进行过滤，此类对于减少IO没有作用，只是代码优雅一些，不用把所有的数据都读到客户端代码里进行过滤。

2. Parquet对RowGroup的过滤的基本介绍

当前最新版本1.12.x 中支持3类：

字典 - 如果列的值域空间不大，则用字典（parquet能够自己识别是否使用字典作为一列的过滤器）
statistics - 数值型的min/max
bloomFilter - 如果列值域比较大，则不是相对分段聚合的，则无法用1-2.则考虑用bloomFilter（如果使用bloomFilter需要在写入时指定要使用bloomFilter的列）

3. Parquet 应用BloomFilter的示例代码

3.1 写入Parquet文件

并指定user_id列使用BloomFilter

        ParquetWriter<Object> parquetWriter = AvroParquetWriter
                .builder(path)
                .withSchema(userFlowTraceSchema)
                .withCompressionCodec(CompressionCodecName.GZIP)
                .withBloomFilterEnabled("user_id", true)
                .build();

3.2 读取Parquet文件

目前BloomFilter仅支持Eq和In操作；其他类型和自定义的操作都直接被返回了 BLOCK_MIGHT_MATCH（true）- 即不过滤
源码见：org.apache.parquet.filter2.bloomfilterlevel.BloomFilterImpl

读取文件，并使用BloomFilter的示例：

GroupReadSupport readSupport = new GroupReadSupport();
String targetUserId1 = "9639102999811";
String targetUserId2 = "9639102999711";
Filter bloomFilterIn = FilterCompat.get(FilterApi.in(FilterApi.binaryColumn("user_id"),
                Sets.newHashSet(Binary.fromString(targetUserId1),
                        Binary.fromString(targetUserId2))));
ParquetReader<Group> reader = ParquetReader.builder(readSupport, path)
                                                   .withFilter(bloomFilterIn).build();