【Flink SQL】Flink SQL 基础概念（一）：SQL &amp； Table 运行环境

m0_74932057

于 2024-04-27 05:42:11 发布

阅读量894

点赞数 29

文章标签： flink sql 大数据

本文链接：https://blog.csdn.net/m0_74932057/article/details/138237496

版权

如果你是 inStreamingMode，则最终创建出来的 TableEnvironment 实例为 StreamTableEnvironmentImpl。
如果你是 inBatchMode，则最终创建出来的 TableEnvironment 实例为 TableEnvironmentImpl。

它两虽然都继承了 TableEnvironment 接口，但是 StreamTableEnvironmentImpl 支持的功能更多一些。大家可以直接去看看接口实验一下，这里就不进行详细介绍。

方法 2：通过已有的 StreamExecutionEnvironment 创建 TableEnvironment

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

2.3 SQL 中表的概念（外部表 TABLE、视图 VIEW）

一个表的全名（标识）会由三个部分组成：Catalog 名称.数据库名称.表名称。如果 Catalog 名称或者数据库名称没有指明，就会使用当前默认值 default。

举个例子，下面这个 SQL 创建的 Table 的全名为 default.default.table1。

tableEnv.executeSql("CREATE TEMPORARY TABLE table1 ... WITH ( 'connector' = ... )");

下面这个 SQL 创建的 Table 的全名为 default.mydatabase.table1。

tableEnv.executeSql("CREATE TEMPORARY TABLE mydatabase.table1 ... WITH ( 'connector' = ... )");

表可以是 常规的（外部表 TABLE），也可以是 虚拟的（视图 VIEW）。

外部表 TABLE：描述的是外部数据，例如文件（HDFS）、消息队列（Kafka）等。依然拿离线 Hive SQL 举个例子，离线中一个表指的是 Hive 表，也就是所说的外部数据。
视图 VIEW：从已经存在的表中创建，视图一般是一个 SQL 逻辑的查询结果。对比到离线的 Hive SQL 中，在离线的场景（Hive 表）中 VIEW 也都是从已有的表中去创建的。其实 Flink 也是一样的。

注意：这里有不同的地方就是，离线 Hive MetaStore 中不会有 Catalog 这个概念，其标识都是 数据库.数据表。

2.4 SQL 临时表、永久表

表（视图、外部表）可以是 临时的，并与单个 Flink Session（可以理解为 Flink 任务运行一次就是一个 Session）的生命周期绑定。
表（视图、外部表）也可以是 永久的，并且对多个 Flink Session 都生效。

临时表：通常保存于内存中并且仅在创建它们的 Flink Session（可以理解为一次 Flink 任务的运行）持续期间存在。这些表对于其它 Session（即其他 Flink 任务或非此次运行的 Flink 任务）是不可见的。因为这个表的元数据没有被持久化。如下案例：

-- 临时外部表
CREATE TEMPORARY TABLE source_table (
    user_id BIGINT,
    `name` STRING
) WITH (
  'connector' = 'user\_defined',
  'format' = 'json',
  'class.name' = 'flink.examples.sql.\_03.source\_sink.table.user\_defined.UserDefinedSource'
);

-- 临时视图
CREATE TEMPORARY VIEW query_view as
SELECT \*
FROM source_table;

永久表：需要外部 Catalog（例如 Hive Metastore）来持久化表的元数据。一旦永久表被创建，它将对任何连接到这个 Catalog 的 Flink Session 可见且持续存在，直至从 Catalog 中被明确删除。如下案例：

-- 永久外部表。需要外部 Catalog 持久化！！！
CREATE TABLE source_table (
    user_id BIGINT,
    `name` STRING
) WITH (
  'connector' = 'user\_defined',
  'format' = 'json',
  'class.name' = 'flink.examples.sql.\_03.source\_sink.table.user\_defined.UserDefinedSource'
);

-- 永久视图。需要外部 Catalog 持久化！！！
CREATE VIEW query_view as
SELECT \*
FROM source_table;

🚀 注意：如果临时表和永久表使用了相同的名称（Catalog名.数据库名.表名）。那么在这个 Flink Session 中，你的任务访问到这个表时，访问到的永远是临时表（即 相同名称的表，临时表会屏蔽永久表）。

2.5 SQL 外部数据表

由于目前在实时数据的场景中多以消息队列作为数据表。此处就以 Kafka 为例创建一个外部数据表。

2.5.1 Table API 创建外部数据表

public static void main(String[] args) throws Exception {

    StreamExecutionEnvironment env =
            StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());
    
    EnvironmentSettings settings = EnvironmentSettings
            .newInstance()
            .useBlinkPlanner()
            .inStreamingMode()
            .build();

    StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings);

    // kafka 数据源
    DataStream<Row> r = env.addSource(new FlinkKafkaConsumer<Row>(xxx));
    // 将 DataStream 转为一个 Table API 中的 Table 对象进行使用
    Table sourceTable = tEnv.fromDataStream(r
            , Schema
                    .newBuilder()
                    .column("f0", "string")
                    .column("f1", "string")
                    .column("f2", "bigint")
                    .columnByExpression("proctime", "PROCTIME()")
                    .build());

    tEnv.createTemporaryView("source\_table", sourceTable);

    String selectWhereSql = "select f0 from source\_table where f1 = 'b'";

    Table resultTable = tEnv.sqlQuery(selectWhereSql);

    tEnv.toRetractStream(resultTable, Row.class).print();

    env.execute();
}

上述案例中，Table API 将一个 DataStream 的结果集通过 StreamTableEnvironment::fromDataStream 转为一个 Table 对象来使用。

2.5.2 SQL API 创建外部数据表

EnvironmentSettings settings = EnvironmentSettings
        .newInstance()
        .useBlinkPlanner()
        .inStreamingMode()
        .build();

StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings);

// SQL API 执行 create table 创建表
tEnv.executeSql(
        "CREATE TABLE KafkaSourceTable (\n"
                + " `f0` STRING,\n"
                + " `f1` STRING\n"
                + ") WITH (\n"
                + " 'connector' = 'kafka',\n"
                + " 'topic' = 'topic',\n"
                + " 'properties.bootstrap.servers' = 'localhost:9092',\n"
                + " 'properties.group.id' = 'testGroup',\n"
                + " 'format' = 'json'\n"
                + ")"
);

Table t = tEnv.sqlQuery("SELECT \* FROM KafkaSourceTable");

具体的创建方式就是使用 Create Table xxx DDL 定义一个 Kafka 数据源（输入）表（也可以是 Kafka 数据汇（输出）表）。

xdm，是不是又和 Hive 一样？惊不惊喜意不意外。对比学习 +1。

2.6 SQL 视图 VIEW

上文已经说了，一个 VIEW 其实就是一段 SQL 逻辑的查询结果。

视图 VIEW 在 Table API 中的体现就是：一个 Table 的 Java 对象，其封装了一段查询逻辑。如下案例所示。

2.6.1 Table API 创建 VIEW

import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;

EnvironmentSettings settings = EnvironmentSettings
    .newInstance()
    .inStreamingMode() // 声明为流任务
    .build();

TableEnvironment tEnv = TableEnvironment.create(settings);

// Table API 中的一个 Table 对象
Table projTable = tEnv.from("X").select(...);

// 将 projTable 创建为一个叫做 projectedTable 的 VIEW
tEnv.createTemporaryView("projectedTable", projTable);

Table API 是使用了 TableEnvironment::createTemporaryView 接口将一个 Table 对象创建为一个 VIEW。

2.6.2 SQL API 创建 VIEW

import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;

EnvironmentSettings settings = EnvironmentSettings
    .newInstance()
    .inStreamingMode() // 声明为流任务
    .build();

TableEnvironment tEnv = TableEnvironment.create(settings);

String sql = "CREATE TABLE source\_table (\n"
		    + " user\_id BIGINT,\n"
		    + " `name` STRING\n"
		    + ") WITH (\n"
		    + " 'connector' = 'user\_defined',\n"
		    + " 'format' = 'json',\n"
		    + " 'class.name' = 'flink.examples.sql.\_03.source\_sink.table.user\_defined.UserDefinedSource'\n"
		    + ");\n"
		    + "\n"
		    + "CREATE TABLE sink\_table (\n"
		    + " user\_id BIGINT,\n"
		    + " name STRING\n"
		    + ") WITH (\n"
		    + " 'connector' = 'print'\n"
		    + ");\n"
		    + "CREATE VIEW query\_view as\n" // 创建 VIEW
		    + "SELECT\n"
		    + " \*\n"
		    + "FROM source\_table\n"
		    + ";\n"
		    + "INSERT INTO sink\_table\n"
		    + "SELECT\n"
		    + " \*\n"
		    + "FROM query\_view;";

Arrays.stream(sql.split(";"))
      .forEach(tEnv::executeSql);

SQL API 是直接通过一段 CREATE VIEW query_view as select * from source_table 来创建的 VIEW，是纯 SQL 写法。

这种创建方式是不是贼熟悉，和离线 Hive 一样。对比学习 +1。

🚀 注意：在 Table API 中的一个 Table 对象被后续的多个查询使用的场景下，Table 对象不会真的产生一个中间表供下游多个查询去引用，即多个查询不共享这个 Table 的结果，小伙伴萌可以理解为是一种中间表的简化写法，不会先产出一个中间表结果，然后将这个结果在下游多个查询中复用，后续的多个查询会将这个 Table 的逻辑执行多次。类似于 with tmp as (DML) 的语法

2.7 一个 SQL 查询案例

来看看一个 SQL 查询案例。

案例场景：计算每一种商品（sku_id 唯一标识）的售出个数、总销售额、平均销售额、最低价、最高价。
数据准备：数据源为商品的销售流水（sku_id：商品，price：销售价格），然后写入到 Kafka 的指定 topic 当中（sku_id：商品，count_result：售出个数、sum_result：总销售额、avg_result：平均销售额、min_result：最低价、max_result：最高价）。

EnvironmentSettings settings = EnvironmentSettings
    .newInstance()
    .inStreamingMode() // 声明为流任务
    //.inBatchMode() // 声明为批任务
    .build();

TableEnvironment tEnv = TableEnvironment.create(settings);

// 1. 创建一个数据源（输入）表，这里的数据源是 flink 自带的一个随机 mock 数据的数据源。
String sourceSql = "CREATE TABLE source\_table (\n"
        + " sku\_id STRING,\n"
        + " price BIGINT\n"
        + ") WITH (\n"
        + " 'connector' = 'datagen',\n"
        + " 'rows-per-second' = '1',\n"
        + " 'fields.sku\_id.length' = '1',\n"
        + " 'fields.price.min' = '1',\n"
        + " 'fields.price.max' = '1000000'\n"
        + ")";

// 2. 创建一个数据汇（输出）表，输出到 kafka 中
String sinkSql = "CREATE TABLE sink\_table (\n"
        + " sku\_id STRING,\n"
        + " count\_result BIGINT,\n"
        + " sum\_result BIGINT,\n"
        + " avg\_result DOUBLE,\n"
        + " min\_result BIGINT,\n"
        + " max\_result BIGINT,\n"
        + " PRIMARY KEY (`sku\_id`) NOT ENFORCED\n"
        + ") WITH (\n"
        + " 'connector' = 'upsert-kafka',\n"
        + " 'topic' = 'tuzisir',\n"
        + " 'properties.bootstrap.servers' = 'localhost:9092',\n"
        + " 'key.format' = 'json',\n"
        + " 'value.format' = 'json'\n"
        + ")";

// 3. 执行一段 group by 的聚合 SQL 查询
String selectWhereSql = "insert into sink\_table\n"
        + "select sku\_id,\n"
        + " count(\*) as count\_result,\n"
        + " sum(price) as sum\_result,\n"
        + " avg(price) as avg\_result,\n"
        + " min(price) as min\_result,\n"
        + " max(price) as max\_result\n"
        + "from source\_table\n"
        + "group by sku\_id";

tEnv.executeSql(sourceSql);
tEnv.executeSql(sinkSql);
tEnv.executeSql(selectWhereSql);

2.8 SQL 与 DataStream API 的转换

大家会比较好奇，要写 SQL 就纯 SQL 呗，要写 DataStream 就纯 DataStream 呗，为啥还要把这两类接口做集成呢？

博主举一个案例：在 PDD 这种发补贴券的场景下，希望可以在发的补贴券总金额超过

10000

10000 元时，及时报警出来，来帮助控制预算，防止发的太多。

对应的解决方案，我们可以想到使用 SQL 计算补贴券发放的结果，但是 SQL 的问题在于无法做到报警。所以我们可以将 SQL 的查询的结果（即 Table 对象）转为 DataStream，然后就可以在 DataStream 后自定义报警逻辑的算子。

我们直接上 SQL 和 DataStream API 互相转化的案例：

public static void main(String[] args) throws Exception {

    FlinkEnv flinkEnv = FlinkEnvUtils.getStreamTableEnv(args);

    // 1. pdd 发补贴券流水数据
    String createTableSql = "CREATE TABLE source\_table (\n"
            + " id BIGINT,\n" -- 补贴券的流水 id
            + " money BIGINT,\n" -- 补贴券的金额
            + " row\_time AS cast(CURRENT\_TIMESTAMP as timestamp\_LTZ(3)),\n"
            + " WATERMARK FOR row\_time AS row\_time - INTERVAL '5' SECOND\n"
            + ") WITH (\n"
            + " 'connector' = 'datagen',\n"
            + " 'rows-per-second' = '1',\n"
            + " 'fields.id.min' = '1',\n"
            + " 'fields.id.max' = '100000',\n"
            + " 'fields.money.min' = '1',\n"
            + " 'fields.money.max' = '100000'\n"
            + ")\n";

    // 2. 计算总计发放补贴券的金额
    String querySql = "SELECT UNIX\_TIMESTAMP(CAST(window\_end AS STRING)) \* 1000 as window\_end, \n"
            + " window\_start, \n"
            + " sum(money) as sum\_money,\n" -- 补贴券的发放总金额
            + " count(distinct id) as count\_distinct\_id\n"
            + "FROM TABLE(CUMULATE(\n"
            + " TABLE source\_table\n"
            + " , DESCRIPTOR(row\_time)\n"
            + " , INTERVAL '5' SECOND\n"
            + " , INTERVAL '1' DAY))\n"
            + "GROUP BY window\_start, \n"
            + " window\_end";

    flinkEnv.streamTEnv().executeSql(createTableSql);

    Table resultTable = flinkEnv.streamTEnv().sqlQuery(querySql);

    // 3. 将金额结果转为 DataStream，然后自定义超过 1w 的报警逻辑
    flinkEnv.streamTEnv()
            .toDataStream(resultTable, Row.class)
            .flatMap(new FlatMapFunction<Row, Object>() {
                @Override
                public void flatMap(Row value, Collector<Object> out) throws Exception {
                    long l = Long.parseLong(String.valueOf(value.getField("sum\_money")));

                    if (l > 10000L) {
                        log.info("报警，超过 1w");
                    }
                }
            });

    flinkEnv.env().execute();
}

目前在

1.13

1.13 版本中，Flink 对于 Table 和 DataStream 的转化是有一些限制的：上面的案例可以看到，Table 和 DataStream 之间的转换目前只有 StreamTableEnvironment::toDataStream、StreamTableEnvironment::fromDataStream 接口支持。

所以其实小伙伴萌可以理解为只有流任务才支持 Table 和 DataStream 之间的转换，批任务是不支持的（虽然可以使用流执行模式处理有界流 - 批数据，也就是模拟按照批执行，但效率较低，这种骚操作不建议大家搞）。

那什么时候才能支持批任务的 Table 和 DataStream 之间的转换呢？

1.14

1.14 版本支持。

1.14

1.14 版本中，流和批的都统一到了 StreamTableEnvironment 中，因此就可以做 Table 和 DataStream 的互相转换了。