FLINKSQL自定义UDF函数1之collect_list&collect_set

FLINKSQL自定义UDF函数1之collect_list&collect_set`


前言

由于flink里面没有hive的collection_list以及collection_set的函数,因此我们需要自定义聚合函数也就是相当于是AGGREGATION来实现,多条数据汇集输出对应的一条数据.

一、collection_list

1.编写CollectList类

代码如下(示例):

public class CollectList extends AggregateFunction<String[],List<String>> {

    public void retract(List acc,String conlum){
        acc.remove(conlum);
    }

    public void accumulate(List acc,String conlum){
        acc.add(conlum);
    }

    @Override
    public String[] getValue(List list) {
        return (String[]) list.toArray(new String[0]);
    }

    @Override
    public List createAccumulator() {
        List list = new ArrayList<>();
        return list;
    }

    public void resetAccumulator(List list){
        list.clear();
    }

}

测试类

在这里插入图片描述

注意点

1.1类型的输入
public class CollectList extends AggregateFunction<String[],List<String>>

这里我们第一个参数是输出的结果类型,第二个参数是累加器的类型,但是可以看到这里我类型是List,但是对于后面的具体方法的实现的时候我并没有写明泛型,这里其实写不写应该不影响,java会自动根据类型推断,不写的原因还有就是可能后面写明具体类型,可能会报错。

1.2方法

可以看到对于这个类有三个方法是必须实现的
1.createAccumulator:创建一个累加器
2.accumulate:累加的规则
3.getValue:获取结果
需要注意的是如果我们的流式数据结果涉及到回撤流,那么我们还需要实现以下方法
retract,resetAccumulator
注意这些方法都要是public并且非static的。

1.3测试结果展示

在这里插入图片描述
在这里插入图片描述

2.collection_set

代码如下(示例):

public class CollectSet extends AggregateFunction<String[], List<String>> {

    public void accumulate(List acc,String column){
        acc.add(column);
    }

    public void retract(List acc,String column){
        acc.remove(column);
    }

    @Override
    public String[] getValue(List list) {
        Set set= new HashSet(list);
        return (String[]) set.toArray(new String[0]);
    }

    @Override
    public List createAccumulator() {
        List list = new ArrayList();
        return list;
    }


    public void resetAccumulator(List acc){
        acc.clear();
    }


//    public static void main(String[] args) {
//        Set<String> set=new HashSet<>();
//        System.out.println(HashSet.class.getModifiers());
//    }
}

测试类

在这里插入图片描述

注意点

1.1这里我使用Set直接作为ACC有问题

开始我先传的是

public class CollectSet extends AggregateFunction<String[], Set<String>>

之后报错说 must no abstract,之后通过看源码发现,再数据类型校验的时候,因为我们的Set其实底层是调用的Map接口,所以然后源码判断的时候走了map的下层判断,走到java.util.set的时候可以看到他会计算你的标识符

    public static void main(String[] args) {
        Set<String> set=new HashSet<>();
       System.out.println(HashSet.class.getModifiers());
    }

通过反射拿到标识符,当当前的class是接口或者是抽象类的时候,返回的int值就是1537
然后就会报错,因此我后面换成了 hashset具体的实现类,但是源码校验的时候再次报错

在这里插入图片描述
在这一步,进去看到下一步
在这里插入图片描述
可以看到这里把当前类包括父类的属性字段都遍历判断了,但是会把static,transient标识的字段排除,所以很遗憾,对于Hashset里面其实还是调用的Hashmap,只有个序列化ID,还有就是transient的
在这里插入图片描述
所以报错Class HashSet has no fields.

因此我后面选择直接还是使用List,只不过去重的时候调用了Set.

1.2 测试结果

在这里插入图片描述

在这里插入图片描述

总结

本节记录了FLINKSQLUDF的实现,包括报错的排查等,还是很有意义的,对于以后的编写以及排错都是一个好的开始,bug不可怕!解决一个我们就成长一步,一起加油吧!

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 您可以尝试以下代码: public class CollectListUDF extends AggregateFunction<Integer,List<Integer>, List<Integer>> { public List<Integer> createAccumulator() { return new ArrayList<Integer>(); } public List<Integer> add(Integer value, List<Integer> accumulator) { accumulator.add(value); return accumulator; } public List<Integer> getResult(List<Integer> accumulator) { return accumulator; } public List<Integer> merge(List<Integer> a, List<Integer> b) { a.addAll(b); return a; } } ### 回答2: 要实现collect_list方法的Flink UDF,可以按照以下步骤进行: 1.创建一个继承自`org.apache.flink.api.common.functions.MapFunction`接口的类,并指定输入类型和输出类型。假设输入类型为T,输出类型为List<T>。 2.实现`MapFunction`接口的`map`方法。该方法用于对输入元素进行处理,并返回转换后的输出结果。 3.在`map`方法中,创建一个ArrayList对象,用于存储转换后的元素列表。 4.对于每个输入元素,将其添加到ArrayList中。 5.最后,返回ArrayList作为输出结果。 以下是一个示例实现: ```java import org.apache.flink.api.common.functions.MapFunction; import java.util.ArrayList; import java.util.List; public class ListCollector<T> implements MapFunction<T, List<T>> { @Override public List<T> map(T value) throws Exception { List<T> resultList = new ArrayList<>(); resultList.add(value); return resultList; } } ``` 注意,上述示例实现只是一个简单的示例,仅将输入元素添加到一个ArrayList中。如果需要实现更复杂的collect_list方法,可以根据需求自行修改`map`方法的实现逻辑。 ### 回答3: 在 Flink 中,可以使用自定义UDF(用户定义函数)来实现 collect_list 方法,将数据流中的元素按照指定的 Key 进行分组,并将每个分组下的元素以 List 的形式返回。 下面是一个示例的 Flink UDF 代码实现: ```java import org.apache.flink.api.common.functions.GroupReduceFunction; import org.apache.flink.util.Collector; import java.util.ArrayList; import java.util.Iterator; import java.util.List; public class CollectListUDF implements GroupReduceFunction<Tuple2<String, Integer>, Tuple2<String, List<Integer>>> { @Override public void reduce(Iterable<Tuple2<String, Integer>> iterable, Collector<Tuple2<String, List<Integer>>> collector) throws Exception { Iterator<Tuple2<String, Integer>> iterator = iterable.iterator(); List<Integer> list = new ArrayList<>(); String key = null; while (iterator.hasNext()) { Tuple2<String, Integer> next = iterator.next(); key = next.f0; list.add(next.f1); } collector.collect(new Tuple2<>(key, list)); } } ``` 上述代码中,`Tuple2<String, Integer>` 表示数据流中的元素类型,假设第一个字段为 Key,第二个字段为 Value。`CollectListUDF` 实现了 Flink 的 `GroupReduceFunction` 接口,重写了其中的 `reduce` 方法。通过迭代器将数据流中的元素取出,将对应的 Value 值添加到一个 List 中,并将结果作为 Tuple2 类型通过 `collector.collect()` 方法进行输出。 然后,可以在 Flink 的数据流处理程序中使用该 UDF 进行操作,示例代码如下: ```java DataStream<Tuple2<String, Integer>> inputDataStream = ... DataStream<Tuple2<String, List<Integer>>> resultDataStream = inputDataStream .groupBy(0) // 按第一个字段进行分组 .reduceGroup(new CollectListUDF()); resultDataStream.print(); ``` 上述代码中,`inputDataStream` 是待处理的数据流,可以从 Kafka、Socket 或其他数据源中获取。通过 `groupBy(0)` 方法按照第一个字段进行分组,在结果数据流中每个分组下的元素将按照 Key 的值以 List 的形式返回。 最后,通过 `resultDataStream.print()` 方法将结果数据流输出到控制台。 需要注意的是,实际使用中需要根据数据源的类型和数据结构进行相应的调整,如将 `Tuple2<String, Integer>` 替换为正确的数据类型,并根据需要调整分组的字段以及聚合函数的实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值