1. 背景
Parquet 的行级别过滤器,可以支持eq、notEq、lt、ltEq、gt、gtEq、in、notIn,以及对上述基本算子再进行or和and的连接以及取非(not)。在使用过程中,我想实现一个对列值进行like操作的逻辑。在基本算子中没有,(Spark中有,我这里是直接用的Parquet 的Java API),所以这里提供一个使用userDefined实现的自定义like逻辑的过滤器。
2. 示例代码
2.1 自定义like逻辑的过滤器实现类
public class StrLikePredicate extends UserDefinedPredicate<Binary> implements Serializable {
//用来存储希望用like 匹配的字符串
private String targetStr;
public SpmFilterPredicate(String targetStr) {
this.targetStr = targetStr;
}
@Override
public boolean keep(Binary value) {
//value是指定的列的值
return value.toStringUsingUTF8().contains(targetStr);
}
@Override
public boolean canDrop(Statistics<Binary> statistics) {
//用于rowGroup的过滤 - 这里直接不要丢弃
return false;
}
@Override
public boolean inverseCanDrop(Statistics<Binary> statistics) {
//用于rowGroup的过滤 - 这里直接不要丢弃
return false;
}
}
2.2 读取文件的代码
GroupReadSupport readSupport = new GroupReadSupport();
//我们希望过滤出ext_info字段包含hello的记录
String columnName = "ext_info";
String targetValue = "hello";
Filter filter = FilterCompat.get(FilterApi.userDefined(FilterApi.binaryColumn(columnName),
new StrLikePredicate(targetValue)));
ParquetReader<Group> reader = ParquetReader.builder(readSupport, filePath).withFilter(filter).build();
Group record = null;
while ((record = reader.read()) != null) {
String extInfo = line.getString("ext_info", 0);
//校验读取到的都包含“hello”
Assert.assertTrue(extInfo.contains(targetValue));
}