Parquet应用之自定义过滤器-like逻辑

1. 背景

Parquet 的行级别过滤器,可以支持eq、notEq、lt、ltEq、gt、gtEq、in、notIn,以及对上述基本算子再进行or和and的连接以及取非(not)。在使用过程中,我想实现一个对列值进行like操作的逻辑。在基本算子中没有,(Spark中有,我这里是直接用的Parquet 的Java API),所以这里提供一个使用userDefined实现的自定义like逻辑的过滤器。

2. 示例代码

2.1 自定义like逻辑的过滤器实现类

public class StrLikePredicate extends UserDefinedPredicate<Binary> implements Serializable {

    //用来存储希望用like 匹配的字符串
    private String targetStr;

    public SpmFilterPredicate(String targetStr) {
        this.targetStr = targetStr;
    }

    @Override
    public boolean keep(Binary value) {
        //value是指定的列的值
        return value.toStringUsingUTF8().contains(targetStr);
    }

    @Override
    public boolean canDrop(Statistics<Binary> statistics) {
        //用于rowGroup的过滤 - 这里直接不要丢弃
        return false;
    }

    @Override
    public boolean inverseCanDrop(Statistics<Binary> statistics) {
        //用于rowGroup的过滤 - 这里直接不要丢弃
        return false;
    }
}

2.2 读取文件的代码

GroupReadSupport readSupport = new GroupReadSupport();

//我们希望过滤出ext_info字段包含hello的记录
String columnName = "ext_info";
String targetValue = "hello";

Filter filter = FilterCompat.get(FilterApi.userDefined(FilterApi.binaryColumn(columnName),
                new StrLikePredicate(targetValue)));
                
ParquetReader<Group> reader = ParquetReader.builder(readSupport, filePath).withFilter(filter).build();

Group record = null;
while ((record = reader.read()) != null) {
     String extInfo = line.getString("ext_info", 0);
     //校验读取到的都包含“hello”
     Assert.assertTrue(extInfo.contains(targetValue));
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值