<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-scala-bridge_2.11</artifactId>
<version>1.13.5</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner-blink_2.11</artifactId>
<version>1.13.5</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-scala_2.11</artifactId>
<version>1.13.5</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-common</artifactId>
<version>1.13.5</version>
</dependency>
引入上述依赖之后,小伙伴萌就可以开始使用 Table / SQL API 了。具体案例如下文所示。
2.SQL & Table 的基本概念及常用 API
在小伙伴萌看下文之前,先看一下整体的思路,跟着博主思路走,会更清晰:
- 先通过一个 SQL / Table API 任务看一下我们在实际开发时的代码结构应该长啥样,让大家能有直观的感受。
- 重点介绍 SQL / Table API 中核心 API - TableEnvironment。SQL / Table 所有能用的接口都在 TableEnvironment 中。
- 通过两个角度(外部表 / 视图、临时 / 非临时)认识 Flink SQL 体系中的表的概念。
- 举几个创建外部表、视图的实际应用案例。
2.1 一个 SQL / Table API 任务的代码结构
// 创建一个 TableEnvironment,为后续使用 SQL 或者 Table API 提供上线
EnvironmentSettings settings = EnvironmentSettings
.newInstance()
.inStreamingMode() // 声明为流任务
//.inBatchMode() // 声明为批任务
.build();
TableEnvironment tEnv = TableEnvironment.create(settings);
// 创建一个输入表
tableEnv.executeSql("CREATE TEMPORARY TABLE table1 ... WITH ( 'connector' = ... )");
// 创建一个输出表
tableEnv.executeSql("CREATE TEMPORARY TABLE outputTable ... WITH ( 'connector' = ... )");
// 1. 使用 Table API 做一个查询并返回 Table
Table table2 = tableEnv.from("table1").select(...);
// 2. 使用 SQl API 做一个查询并返回 Table
Table table3 = tableEnv.sqlQuery("SELECT ... FROM table1 ... ");
// 将 table2 的结果使用 Table API 写入 outputTable 中,并返回结果
TableResult tableResult = table2.executeInsert("outputTable");
tableResult...
总结一下上面案例使用到的一些 API,让大家先对 Table / SQL API 的能力有一个大概了解:
TableEnvironment
:Table API 和 SQL API 的都集成在一个 统一上下文(即TableEnvironment
)中,其地位等同于 DataStream API 中的StreamExecutionEnvironment
的地位TableEnvironment::executeSql
:用于 SQL API 中,可以执行一段完整 DDL、DML SQL。举例,方法入参可以是CREATE TABLE xxx
,INSERT INTO xxx SELECT xxx FROM xxx
。TableEnvironment::from(xxx)
:用于 Table API 中,可以以强类型接口的方式运行。方法入参是一个表名称。TableEnvironment::sqlQuery
:用于 SQL API 中,可以执行一段查询 SQL,并把结果以 Table 的形式返回。举例,方法的入参是SELECT xxx FROM xxx
。Table::executeInsert
:用于将 Table 的结果插入到结果表中。方法入参是写入的目标表。
无论是对于 SQL API 来说还是对于 Table API 来说,都是使用 TableEnvironment
接口承载我们的业务查询逻辑的。只是在用户的使用接口的方式上有区别,以上述的 Java 代码为例,Table API 其实就是模拟 SQL 的查询方式封装了 Java 语言的 lambda 强类型 API,SQL 就是纯 SQL 查询。Table 和 SQL 很多时候都是掺杂在一起的,大家理解的时候就可以直接将 Table 和 SQL API 直接按照 SQL 进行理解,不用强行做特殊的区分。
而且博主推荐的话,直接上 SQL API 就行,其实 Table API 在企业实战中用的不是特别多。你说 Table API 方便吧,它确实比 DataStream API 方便,但是又比 SQL 复杂。一般生产使用不多。
注