Parquet应用之自定义过滤器-like逻辑

最新推荐文章于 2024-04-29 14:41:49 发布

靖源

最新推荐文章于 2024-04-29 14:41:49 发布

阅读量371

点赞数

分类专栏： Parquet 文章标签： java Parquet

本文链接：https://blog.csdn.net/qyanqing/article/details/129389651

版权

Parquet 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 背景

Parquet 的行级别过滤器，可以支持eq、notEq、lt、ltEq、gt、gtEq、in、notIn，以及对上述基本算子再进行or和and的连接以及取非(not)。在使用过程中，我想实现一个对列值进行like操作的逻辑。在基本算子中没有，(Spark中有，我这里是直接用的Parquet 的Java API)，所以这里提供一个使用userDefined实现的自定义like逻辑的过滤器。

2. 示例代码

2.1 自定义like逻辑的过滤器实现类

public class StrLikePredicate extends UserDefinedPredicate<Binary> implements Serializable {

    //用来存储希望用like 匹配的字符串
    private String targetStr;

    public SpmFilterPredicate(String targetStr) {
        this.targetStr = targetStr;
    }

    @Override
    public boolean keep(Binary value) {
        //value是指定的列的值
        return value.toStringUsingUTF8().contains(targetStr);
    }

    @Override
    public boolean canDrop(Statistics<Binary> statistics) {
        //用于rowGroup的过滤 - 这里直接不要丢弃
        return false;
    }

    @Override
    public boolean inverseCanDrop(Statistics<Binary> statistics) {
        //用于rowGroup的过滤 - 这里直接不要丢弃
        return false;
    }
}

2.2 读取文件的代码

GroupReadSupport readSupport = new GroupReadSupport();

//我们希望过滤出ext_info字段包含hello的记录
String columnName = "ext_info";
String targetValue = "hello";

Filter filter = FilterCompat.get(FilterApi.userDefined(FilterApi.binaryColumn(columnName),
                new StrLikePredicate(targetValue)));
                
ParquetReader<Group> reader = ParquetReader.builder(readSupport, filePath).withFilter(filter).build();

Group record = null;
while ((record = reader.read()) != null) {
     String extInfo = line.getString("ext_info", 0);
     //校验读取到的都包含“hello”
     Assert.assertTrue(extInfo.contains(targetValue));
}