Day79_Flink(五） FlinkSQL和CEP

最新推荐文章于 2022-04-17 19:08:57 发布

dogedong

最新推荐文章于 2022-04-17 19:08:57 发布

阅读量2.3k

点赞数

分类专栏： # 大数据优就业——第四阶段（Flink生态系统体系架构）文章标签： flink sql 大数据

本文链接：https://blog.csdn.net/qq_36972345/article/details/121211721

版权

课程大纲课程内容学习效果掌握目标 FlinkSQL FlinkTable 掌握 FlinkSQL 掌握 FlinkCEP FlinkCEP 掌握任务性能优化 ...

摘要由CSDN通过智能技术生成

课程大纲	课程内容	学习效果	掌握目标
FlinkSQL	FlinkTable	掌握
FlinkSQL	FlinkSQL	掌握
FlinkCEP	FlinkCEP	掌握
任务性能优化	operator chain	掌握
	slot sharing	掌握
	Flink异步IO	掌握
	Checkpoint 优化	掌握

一、Table&SQL

（一）概述

Table API是流处理和批处理通用的关系型 API，Table API 可以基于流输入或者批输入来运行而不需要进行任何修改。Table API 是 SQL 语言的超集并专门为 Apache Flink 设计的，Table API 是 Scala 和 Java 语言集成式的 API。与常规 SQL 语言中将查询指定为字符串不同，Table API 查询是以 Java 或 Scala 中的语言嵌入样式来定义的，具有 IDE 支持如:自动完成和语法检测;允许以非常直观的方式组合关系运算符的查询，例如 select，filter 和 join。Flink SQL 的支持是基于实现了SQL标准的 Apache Calcite。无论输入是批输入（DataSet）还是流输入（DataStream），任一接口中指定的查询都具有相同的语义并指定相同的结果。

（二）、Table API

1、依赖

<!-- flink-table&sql -->

    <dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table</artifactId>

    <version>1.9.1</version>

    <type>pom</type>

    </dependency>

    <dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table-planner_2.11</artifactId>

    <version>1.9.1</version>

    </dependency>

    <dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table-api-java-bridge_2.11</artifactId>

    <version>1.9.1</version>

    </dependency>

    <dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table-api-scala-bridge_2.11</artifactId>

    <version>1.9.1</version>

    </dependency>
<dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table-api-scala-bridge_2.11</artifactId>

    <version>1.9.1</version>

    </dependency>

    <dependency>

    <groupId>org.apache.flink</groupId>

    <artifactId>flink-table-common</artifactId>

    <version>1.9.1</version>

    </dependency>

2、Table API

（1）、TableEnvironment

TableEnvironment 是 Table API 和SQL集成的核心概念，它负责：

在内部目录中注册表
注册外部目录
执行SQL查询
注册用户定义的函数
DataStream 或 DataSet 转换为 Table
持有 ExecutionEnvironment 或 StreamExecutionEnvironment 的引用

Table总是与特定的TableEnvironment 绑定。不能在同一查询中组合不同 TableEnvironments 的表（例如，union 或 join）。创建 TableEnvironment：

// 基于流的tableEnv
val sEnv = StreamExecutionEnvironment.getExecutionEnvironment
// create a TableEnvironment for streaming queries
val sTableEnv = StreamTableEnvironment.create(sEnv)
// 基于批的bTableEnv
val bEnv: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
val bTableEnv: BatchTableEnvironment = BatchTableEnvironment.create(bEnv)

（2）、数据加载

数据加载通常有两种：一者基于流/批，一者基于TableSource，但是后者在Flink1.11中已经被废弃，所以不建议使用。

基于批

case class Student(id:Int,name:String,age:Int,gender:String,course:String,score:Int)
object FlinkBatchTableOps {
    def main(args: Array[String]): Unit = {
        //构建batch的executionEnvironment
        val env = ExecutionEnvironment.getExecutionEnvironment
        val bTEnv = BatchTableEnvironment.create(env)
 val dataSets: DataSet[Student] = env.readCsvFile[Student]("E:\\data\\student.csv",
            //是否忽略文件的第一行数据（主要考虑表头数据）
            ignoreFirstLin