Flink SQL 使用UDF函数实现将多行值转为数组

1、背景

在使用Flink SQL同步数据的实际场景中,会碰到需要将多行数据转为数组的情况。
以MySQL同步ES为例,假如我们需要把每个学生的选修课程用数组格式存到ES。

namecourse
苏苏语文
苏苏数学
苏苏英语
橙橙政治
橙橙物理
橙橙计算机

需要得到以下结果:

namecourse_arr
苏苏[语文, 数学,英语]
橙橙[政治, 物理, 计算机]

2、问题

2.1 试过一些可能可以使用的聚合函数都不满足条件。

函数名返回类型
COLLECTMULTISET
LISTAGGSTRING
JSON_ARRAYAGGSTRING

2.2 类型转换也都没有成功

3、解决方案 - 编写UDF函数实现

先使用自带的LISTAGG聚合函数将多行聚合成字符串,然后自己编写UDF将字符串切割成数组

1. 自定义UDF

import org.apache.flink.table.functions.ScalarFunction;

public class Split extends ScalarFunction {

    public String[] eval(String str, String regex) {
        return str.split(regex);
    }
}

2.使用方法


StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);
// 注册函数
tEnv.createTemporarySystemFunction("SPLIT", Split.class);

// 使用函数
tEnv.executeSql(
                   "SELECT name, " +
                   "SPLIT(course, ',') AS course_arr " +
                   "FROM (" +
                   "    SELECT " +
                   "        name," +
                   "        LISTAGG(course)  AS course " +
                   "    FROM student " +
                   "    GROUP BY name" +
                   ");"
)
  • 11
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink使用 Json 解析 UDF 函数,需要使用 Flink 自带的 Json 库,即 `flink-json`。具体步骤如下: 1. 添加依赖 在 `pom.xml` 中添加以下依赖: ```xml <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-json</artifactId> <version>${flink.version}</version> </dependency> ``` 其中,`${flink.version}` 是 Flink 的版本号,需要根据实际情况修改。 2. 编写 UDF 函数Flink 中,UDF 函数需要实现 `org.apache.flink.table.functions.ScalarFunction` 接口。具体实现过程如下: ```java import org.apache.flink.api.common.typeinfo.TypeInformation; import org.apache.flink.api.java.typeutils.TypeExtractor; import org.apache.flink.table.functions.ScalarFunction; import org.apache.flink.types.Row; import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.ObjectMapper; import org.apache.flink.shaded.jackson2.com.fasterxml.jackson.databind.JsonNode; public class JsonParse extends ScalarFunction { public Row eval(String jsonStr, String key) { ObjectMapper mapper = new ObjectMapper(); try { JsonNode jsonNode = mapper.readTree(jsonStr); JsonNode valueNode = jsonNode.get(key); if (valueNode == null) { return null; } TypeInformation<?>[] fieldTypes = new TypeInformation<?>[1]; fieldTypes[0] = TypeExtractor.getForClass(String.class); Row row = new Row(1); row.setField(0, valueNode.asText()); return row; } catch (Exception e) { return null; } } } ``` 该 UDF 函数的作用是从 Json 字符串中解析出指定的 key 对应的返回一个包含该的 Row 对象。 3. 使用 UDF 函数Flink SQL 中,可以使用 `json_parse` 函数来调用 `JsonParse` UDF 函数。示例代码如下: ```sql SELECT json_parse('{"name":"Alice","age":20}', 'name') as name FROM table_name; ``` 该语句将返回一个包含字符串 `"Alice"` 的 Row 对象。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值