四万字！掌握Flink Table一篇就够了

最新推荐文章于 2024-05-06 17:03:03 发布

置顶菜鸟也学大数据

最新推荐文章于 2024-05-06 17:03:03 发布

阅读量1.7k

点赞数 2

分类专栏：菜鸟也学大数据 Flink 文章标签：大数据 flink kafka hive

本文链接：https://blog.csdn.net/weixin_38468167/article/details/112348368

版权

菜鸟也学大数据同时被 2 个专栏收录

167 篇文章 14 订阅

订阅专栏

Flink

23 篇文章 0 订阅

订阅专栏

学习工具与软件版本：开发软件IDEA、Flink1.10.2、Kafka2.0.0、Scala2.11

本章建议有一定Flink基础的伙伴学习

Apache Flink介绍、架构、原理以及实现：点击这里

文章目录

一创建Flink Table执行环境需要的依赖
二创建Flink Table执行环境的几种方式
三表(Table)的概念
- - 创建表的标准格式
四更新模式
- 1.追加(Append)模式
- 2.撤回(Retract) 模式
- 3.更新插入(Upsert) 模式
五 Table转换成DataStream
- 示例：追加模式(Append Mode)
- 示例：撤回模式(Retract Mode)
六查看执行计划
七流处理与关系代数的区别
八动态表(Dynamic Tables)
- 1.动态表与持续查询
- 2.将流转换成动态表
- 3.持续查询
- 4.将动态表转换成DataStream
九时间特性(Time Attributes )
- 定义处理时间(Processing Time)
- 定义事件时间(Event Time)
十、窗口
- 1. Group Windows (分组窗口)
- 2. Group Windows(SQL)
- - 示例：滚动窗口(SQL)
- 3. Over Windows
- 4. Over Windows(SQL)
- - 示例：Over Windows(SQL)
十一函数(Functions)
十二自定义函数(UDF)
- 标量函数(Scalar Functions)
- 表函数(Table Functions)
- 聚合函数(Aggregate Functions)
- 表聚合函数(Table Aggregate Functions)
实践：Flink Table读取本地数据文件
实践：Flink Table读取Kafka Topic中的数据
实践：DataStream转Table
实践：将Table 数据输出至本地
实践：将Table数据输出至Kafka
实践：将Table 数据输出至ES
实践：将Table 数据输出至MySQL

一创建Flink Table执行环境需要的依赖

	<!- 根据自己使用的版本修改对应的版本号 ->
	<dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-scala_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-scala_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-java_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-statebackend-rocksdb_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
		<groupId>org.apache.flink</groupId>
		<artifactId>flink-table-planner_2.11</artifactId>
		<version>1.10.2</version>
	</dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-table-planner-blink_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-table-api-scala-bridge_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-csv</artifactId>
      <version>1.10.2</version>
    </dependency>

二创建Flink Table执行环境的几种方式

	//创建Flink流处理环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
	/**
	*	以下的几种创建方式对应的结果基本相同，但高版本建议只需要blink planner即可
	*/
	
	//1.0 在刚开始的学习阶段直接create env即可
	val tableEnv = StreamTableEnvironment.create(env)
	
	//1.1基于老版本pLanner的流处理
	val settings = EnvironmentSettings.newInstance()
		.use0ldPlanner()
		.inStreamingMode()
		.build()
	val oldStreamTableEnv = StreamTableEnvironment.create(env,settings)
	
	//1.2基于老版本pLanner的批处理
	val batchEnv = ExecutionEnvironment.getExecutionEnvironment
	val oldBatchTableEnv = BatchTableEnvironment.create(batchEnv)
	
	// 1.3基于blink planner的流处理
	val blinkStreamSettings = EnvironmentSettings.newInstance()
		.useBlinkPlanner()
		.inStreamingMode()
		.build()
	val blinkStreamTableEnv = StreamTableEnvironment.create(env,blinkStreamSettings)
	
	// 1.4基于blink planner的批处理
	val blinkBatchSettings = EnvironmentSettings.newInstance()
		.useBlinkPlanner()
		.inBatchMode()
		.build()
	val blinkBatchTableEnv = TableEnvironment.create(blinkBatchSettings)

三表(Table)的概念

TableEnvironment可以注册目录Catalog,并可以基于Catalog注册表
表(Table) 是由一个”标识符” (identifier) 来指定的，由3部分组成:Catalog名、数据库(database) 名和对象名
表可以是常规的，也可以是虚拟的(视图，View)
常规表(Table)一般可以用来描述外部数据，比如文件、数据库表或消息队列的数据，也可以直接从DataStream转换而来
视图(View) 可以从现有的表中创建，通常是table API或者SQL查询的个结果集

创建表的标准格式

TableEnvironment 可以调用.connect()方法，连接外部系统，并调用.create TemporaryTable()方法，在Catalog中注册表

	tableEnv
		.connect(...) //定义表的数据来源，和外部系统建立连接
		.withFormat(...) //定义数据格式化方法
		.withSchema(...) //定义表结构
		.createTemporaryTable("MyTable") //创建临时表

四更新模式

对于流式查询，需要声明如何在表和外部连接器之间执行转换
与外部系统交换的消息类型，由更新模式(Update Mode)指定

Table保存本地只支持Append模式，如果需要撤回、更新模式，就需要连接支持这两种模式的外部系统

1.追加(Append)模式

表只做插入操作，和外部连接器只交换插入(insert) 消息

2.撤回(Retract) 模式

表和外部连接器交换添加 (Add)和撤回(Retract) 消息
插入操作(Insert)编码为Add消息;删除(Delete)编码为Retract消息;更新(Update)编码为上一条的Retract和下一条的Add消息

3.更新插入(Upsert) 模式

更新和插入都被编码为 Upsert消息;删除编码为Delete消息

五 Table转换成DataStream

表可以转换为DataStream或DataSet，这样自定义流处理或批处理程序就可以继续在Table API或SQL查询的结果上运行了
将表转换为DataStream或DataSet时，需要指定生成的数据类型，即要将表的每一-行转换成的数据类型
表作为流式查询的结果，是动态更新的
转换有两种转换模式:追加(Appende) 模式和撤回(Retract) 模式

示例：追加模式(Append Mode)

用于表只会被插入(Insert) 操作更改的场景

val resultStream: DataStream[ Row] = tableEnv. toAppendStream[Row] (resultTable)

示例：撤回模式(Retract Mode)

用于任何场景。有些类似于更新模式中Retract模式，它只有Insert和Delete两类操作。
得到的数据会增加一-个Boolean类型的标识位(返回的第一个字段) , 用它来表示到底是新增的数据(Insert) ,还是被删除的数据(Delete)

val aggResultStream: DataStream[ (Boolean, (String, Long))] = tableEnv.toRetractStream[(String，Long)](aggResultTable)

六查看执行计划

Table API提供了- -种机制来解释计算表的逻辑和优化查询计划
查看执行计划，可以通过TableEnvironment.explain(table)方法或TableEnvironment.explain0方法完成，返回一个字符串，描述三个计划
➢优化的逻辑查询计划
➢优化后的逻辑查询计划
➢实际执行计划。

//生成执行计划
val explaination:String = tableEnv.explain(resultTable)
///输出执行计划
println(explaination)

七流处理与关系代数的区别

在这里插入图片描述

八动态表(Dynamic Tables)

动态表是Flink对流数据的Table API和SQL支持的核心概念
与表示批处理数据的静态表不同，动态表是随时间变化的
➢持续查询(Continuous Query)
动态表可以像静态的批处理表一样进行查询，查询-一个动态表会产生持续查询(Continuous Query)
连续查询永远不会终止，并会生成另-个动态表
查询会不断更新其动态结果表,以反映其动态输入表上的更改

1.动态表与持续查询

在这里插入图片描述

流式表查询的处理过程:
1.流被转换为动态表
2.对动态表计算连续查询，生成新的动态表
3.生成的动态表被转换回流

2.将流转换成动态表

在这里插入图片描述

为了处理带有关系查询的流，必须先将其转换为表
从概念上讲，流的每个数据记录，都被解释为对结果表的插入(Insert)修改操作

3.持续查询

在这里插入图片描述

持续查询会在动态表上做计算处理，并作为结果生成新的动态表

4.将动态表转换成DataStream

在这里插入图片描述

与常规的数据库表- 样,动态表可以通过插入(Insert) 、更新(Update)和删除(Delete)更改，进行持续的修改
将动态表转换为流或将其写入外部系统时，需要对这些更改进行编码

a.仅追加(Append-only) 流

仅通过插入(Insert) 更改来修改的动态表，可以直接转换为仅追加流

b.撤回(Retract) 流

撤回流是包含两类消息的流: 添加(Add) 消息和撒回(Retract) 消息

c.Upsert (更新插入)流

Upsert流也包含两种类型的消息: Upsert消息和删除(Delete) 消息。

九时间特性(Time Attributes )

基于时间的操作(比如Table API和SQL中窗口操作)，需要定义相关的时间语义和时间数据来源的信息
Table 可以提供一个逻辑上的时间字段,用于在表处理程序中，指示时间和访问相应的时间戳
时间属性，可以是每个表schema的一部分。一旦定义了时间属性，它就可以作为一个字段引用，并且可以在基于时间的操作中使用
时间属性的行为类似于常规时间戳，可以访问，并且进行计算

定义处理时间(Processing Time)

处理时间语义下，允许表处理程序根据机器的本地时间生成结果。它是时间的最简单概念。它既不需要提取时间戳，也不需要生成watermark
在定义Schema期间，可以使用proctime,指定字段名定义处理时间字段
这个proctime属性只能通过附加逻辑字段,来扩展物理schema。因此，只能在schema定义的末尾定义它

val sensorTable = tableEnv.fromDataStream( dataStream,'id, 'temperature, 'timestamp, 'pt.proctime )

定义事件时间(Event Time)

事件时间语义，允许表处理程序根据每个记录中包含的时间生成结果。这样即使在有乱序事件或者延迟事件时，也可以获得正确的结果。
为了处理无序事件,并区分流中的准时和迟到事件; Flink 需要从事件数据中,提取时间戳，并用来推进事件时间的进展
定义事件时间，同样有三种方法，下面用示例来实现一下

示例：由DataStream转换成表时指定

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Rowtime, Schema}
import org.apache.flink.table.types.DataType
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object Def_Time {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //配置使用事件时间
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
    //创建表执行环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

    //********************************由DataStream转换成表时指定时间戳******************************************
    //读取本地文件数据
    val datas: DataStream[String] = env.readTextFile("in/StringToClass.txt")
    //转换成自定义类型，并设置watermark延迟1秒
    val dataStream: DataStream[WaterSensor] = datas.filter(data=>{data.split(",")==3}).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
      override def extractTimestamp(t: WaterSensor): Long = t.ts*1000L
    })
    
    //将流转换成表，使用rowtime指定时间字段
    val table_DataStream: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime ,'vc)

    //输出表结构
    table_DataStream.printSchema()

	//输出结果
	table_DataStream.toAppendStream[Row].print()

	//执行
	env.execute()
  }
}

示例：定义Table Schema时指定

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Rowtime, Schema}
import org.apache.flink.table.types.DataType
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object Def_Time {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //配置使用事件时间
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
    //创建表执行环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)
    
    //************************************定义Table Schema时指定**********************************************
    tableEnv.connect(new FileSystem().path("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt"))
        .withFormat(new Csv)
        .withSchema(new Schema()
        .field("id",DataTypes.STRING())
        .field("ts",DataTypes.BIGINT())
        .rowtime(
          new Rowtime()
          	//指定时间字段
            .timestampsFromField("ts")
            //1000毫秒
            .watermarksPeriodicBounded(1000)
        )
          .field("vc",DataTypes.DOUBLE())
        ).createTemporaryTable("timewindow_to_schema")

    val table_Schema: Table = tableEnv.from("timewindow_to_schema")
    
    //输出表结构
	table_Schema.printSchema()
	
	//输出结果
	table_Schema.toAppendStream[Row].print()

	//执行
	env.execute()	
  }
}

示例：在创建表的 DDL中定义

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Rowtime, Schema}
import org.apache.flink.table.types.DataType
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object Def_Time {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //配置使用事件时间
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
    //创建表执行环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)
    
    //************************************在创建表的DDL中定义*******************************************************
    val tableDDL:String=
      """
        |create table table_DDL(
        | id varchar(20) not null,
        | ts bigint,
        | vc double,
        | rt AS TO_TIMESTAMP(FROM_UNIXTIME(ts)),
        | watermark for rt as rt - interval '1' second
        | ) with (
        | 'connector.type' = 'filesystem',
        | 'connector.path' = 'D:\ideaProject\FlinkDemo\in\StringToClass.txt',
        | 'format.type' = 'csv'
        | )
      """.stripMargin
	
	//注册表
    tableEnv.sqlUpdate(tableDDL)
    
    val table_DDL: Table = tableEnv.from("table_DDL")
    
    //查看表结构
    table_DDL.printSchema()

	//输出结果
	table_DDL.toAppendStream[Row].print()	

	//执行
    env.execute()
  }
}

十、窗口

时间语义，要配合窗口操作才能发挥作用
在Table API和SQL中，主要有两种窗口

1. Group Windows (分组窗口)

根据时间或行计数间隔，将行聚合到有限的组(Group) 中，并对每个组的数据执行一次聚合函数
Group Windows是使用window (w:GroupWindow) 子句定义的,并且必须由as子句指定一个别名。
为了按窗口对表进行分组，窗口的别名必须在group by子句中，像常规的分组字段一样引用

val table = input
.window([w:GroupWindow] as 'w) //定义窗口别名为w
.groupBy('w, 'a) //按照字段a和窗口w分组
.select('a,'b.sum) //聚合

Table API提供了一组具有特定语义的预定义Window类，这些类会被转换为底层DataStream或DataSet的窗口操作

滚动窗口(Tumbling windows)

滚动窗口要用Tumble类来定义

基于事件时间的滚动窗口

// Tumbling Event-time Window ：基于事件时间的滚动窗口
.window(Tumble over 10.minutes on 'rowtime as 'w)

基于处理时间的滚动窗口

// Tumbling Process ing-time Window ：基于处理时间的滚动窗口
.window(Tumble over 10.minutes on 'proctime as ' w)

基于计数的滚动窗口

// Tumbling Row- count Window：基于计数的滚动窗口
.window(Tumb1e over 10.rows on 'proctime as 'w)

滑动窗口(Sliding windows)

滑动窗口要用Slide类来定义

基于事件时间的滚动窗口

// Sliding Event-time Window 基于事件时间的滑动窗口
.window(Slide over 10.minutes every 5.minutes on 'rowtime as 'w)

基于处理时间的滚动窗口

// Sliding Processing-time window	基于处理时间的滑动窗口
.window(Slide over 10.minutes every 5.minutes on 'proctime as 'w)

基于计数的滚动窗口

// Sliding Row- count window：基于计数的滑动窗口
. window(Slide over 10.rows every 5.rows on 'proctime as 'w)

会话窗口(Session windows)

会话窗口要用Session类来定义

基于事件时间的滚动窗口

// Session Event-time Window  基于事件时间的会话窗口
.window(Session withGap 10.minutes on 'rowtime as 'w)

基于处理时间的滚动窗口

// Session Processing-time Window  基于处理时间的会话窗口
.window(Session withGap 10.minutes on 'proctime as 'w)

示例：滚动窗口

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Over, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object TimeAndWindow {
  def main(args: Array[String]): Unit = {
      val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

      env.setParallelism(1)

      env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

      val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

      val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

      val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

      val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
        x.split(",").length==3
      }).map(data => {
        val strings: Array[String] = data.split(",")
        WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
      }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
        override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
      })

      val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

       //*********************************Group winodow****************************************************
      val table_gw: Table = table
        .window(Tumble over 10.seconds on 'ts as 'tw) //设置窗口
        .groupBy('id, 'tw)
        .select('id, 'id.count,'tw.end)

      table_gw.toAppendStream[Row].print()
	
	  //启动
      env.execute()
  }
}

2. Group Windows(SQL)

Group Windows定义在SQL查询的Group By子句中
➢TUMBLE(time_ attr, interval)
定义一个滚动窗口，第一个参数是时间字段,第二个参数是窗口长度
➢HOP(time_ attr, interval, interval)
定义一个滑动窗口，第一个参数是时间字段，第二个参数是窗口滑动步长，第三个是窗口长度
➢SESSION(time_ attr, interval)
定义一个会话窗口，第一个参数是时间字段,第二个参数是窗口间隔

示例：滚动窗口(SQL)

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Over, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object TimeAndWindow {
  def main(args: Array[String]): Unit = {
      val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

      env.setParallelism(1)

      env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

      val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

      val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

      val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

      val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
        x.split(",").length==3
      }).map(data => {
        val strings: Array[String] = data.split(",")
        WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
      }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
        override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
      })

      val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

      //*********************************Group winodow（SQL）****************************************************
      tableEnv.createTemporaryView("table_view",table) //注册视图
      val table_sql_gw: Table = tableEnv.sqlQuery(
        """
          select id,count(id),sum(vc), tumble_end(ts,interval '10' second) from table_view
          group by id,tumble(ts,interval '10' second)
        """.stripMargin)

		//输出执行结果
      table_sql_gw.toAppendStream[Row].print()
	
	  //启动
      env.execute()
  }
}

3. Over Windows

Over window聚合是标准SQL中已有的(over 子句)，可以在查询的SELECT子句中定义
Over window聚合，会针对每个输入行，计算相邻行范围内的聚合
Over windows使用window (w:overwindows*) 子句定义,并在select ()方法中通过别名来引用

val tabLe = input
	.window([w: OverWindow] as 'w)
	.select('a,'b.sum over 'W，'c.min over 'w)

Table API提供了Over类,来配置Over窗口的属性

无界Over Windows

可以在事件时间或处理时间，以及指定为时间间隔、或行计数的范围内，定义Over windows
无界的over window是使用常量指定的

基于事件时间的over window

//无界的事件时间over window
.window(Over partitionBy 'a orderBy 'rowtime preceding UNBOUNDED_ RANGE as 'w)

基于处理时间的over window

//无界的处理时间over window 
.window(Over partitionBy 'a orderBy 'proctime preceding UNBOUNDED_ RANGE as 'w)

基于事件时间的计数over window

//无界的事件时间Row-count over window
.window(Over partitionBy 'a orderBy 'rowtime preceding UNBOUNDED_ROW as w)

基于处理时间的计数over window

//.无界的处理时间Row-count over window
.window(Over partitionBy 'a orderBy 'proctime preceding UNBOUNDED_ROW as 'w)

有界Over Windows

有界的over window是用间隔的大小指定的

基于事件时间的有界over window

//有界的事件时间的有界over window
.window(Over partitionBy 'a orderBy 'rowtime preceding 1.minutes as 'w)

基于处理时间的over window

//有界的处理时间over window
.window(Over partitionBy 'a orderBy 'proctime preceding 1.minutes as 'w)

基于事件时间的有界计数over window

//有界的事件时间Row-count over window
.window(Over partitionBy 'a orderBy 'rowtime preceding 10.rows as 'w)

基于处理时间的有界计数over window

//有界的处理时间Row-count over window
.window(Over partitionBy 'a orderBy 'proctime preceding 10.rows as 'w)

示例：无界Over Windows

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Over, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object TimeAndWindow {
  def main(args: Array[String]): Unit = {
      val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

      env.setParallelism(1)

      env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

      val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

      val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

      val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

      val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
        x.split(",").length==3
      }).map(data => {
        val strings: Array[String] = data.split(",")
        WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
      }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
        override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
      })

      val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

       //*********************************Over winodow****************************************************
      val table_ow: Table = table.window(Over partitionBy 'id orderBy 'ts preceding 2.rows as 'ow)
        .select('id, 'id.count over 'ow, 'vc.sum over 'ow)//做聚合函数后指定窗口

      //输出
      table_ow.toAppendStream[Row].print()
	
	  //执行
      env.execute()
  }
}

4. Over Windows(SQL)

用Over做窗口聚合时，所有聚合必须在同一窗口.上定义，也就是说必须是相同的分区、排序和范围
目前仅支持在当前行范围之前的窗口
ORDER BY必须在单一的时间属性上指定

SELECT COUNT(amount) OVER (
PARTITION BY user
ORDER BY proctime
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM Orders

示例：Over Windows(SQL)

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Over, Table, Tumble}
import org.apache.flink.table.api.scala._
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object TimeAndWindow {
  def main(args: Array[String]): Unit = {
      val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

      env.setParallelism(1)

      env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

      val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

      val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

      val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

      val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
        x.split(",").length==3
      }).map(data => {
        val strings: Array[String] = data.split(",")
        WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
      }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
        override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
      })

      val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

      //*********************************Over winodow(SQL)****************************************************
      val table_sql_ow=tableEnv.sqlQuery(
        """
          |select id,count(id) over ow ,sum(vc) over ow from table_view
          |window ow as(
          |partition by id
          |order by ts
          |rows between 2 preceding and current row
          |)
        """.stripMargin)

      table_sql_ow.toAppendStream[Row].print()
	
	  //执行
      env.execute()
  }
}

十一函数(Functions)

Flink Table API和SQL为用户提供了组用于数据转换的内置函数
SQL中支持的很多函数，Table API和SQL都已经做了实现

比较函数

SQL:
value1 = value2
value1 > value2

Table API:
ANY1=== ANY2
ANY1 > ANY2

逻辑函数

SQL:
boolean1 OR boolean2
boolean IS FALSE
NOT boolean

TABLE API:
BOOLEAN1||BOOLEAN2
BOOL EAN.isFalse
!BOOLEAN

算数函数

SQL:
numeric1 + numeric2
POWER(numeric1, numeric2)

Table API:
NUMERIC1 + NUMERIC2
NUMERIC1.power(NUMERIC2)

字符串函数

SQL:
string1 || string2
UPPER(string)
CHAR_LENGTH(string)

Table API:
STRING1 + STRING2
STRING.upperCase()
STRING.charLength()

时间函数

SQL:
DATE string
TIMESTAMP string
CURRENT TIME
INTERVAL string range

Table API:
STRING.toDate
STRING.toTimestamp
currentTime()
NUMERIC.days
NUMERIC.minutes

聚合函数

SQL:
COUNT(*)
SUM(expression)
RANK()
ROW_NUMBER()

Table API:
FIELD.count
FIELD.sum

十二自定义函数(UDF)

用户定义函数(User-defined Functions, UDF)是一个重要的特性，它们显著地扩展了查询的表达能力
在大多数情况下，用户定义的函数必须先注册，然后才能在查询中使用
函数通过调用 registerFunction ()方法在TableEnvironment中注册。当用户定义的函数被注册时，它被插入到TableEnvironment的函数目录中，这样Table API或SQL解析器就可以识别并正确地解释它

标量函数(Scalar Functions)

用户定义的标量函数，可以将0、1或多个标量值，映射到新的标量值
为了定义标量函数，必须在org.apache.flink table.functions中扩展基类Scalar Function,并实现(一个或多个)求值(eval) 方法
标量函数的行为由求值方法决定，求值方法必须公开声明并命名为eval
实现的是一进一出，类似于map

class HashCode( factor: Int ) extends ScalarFunction {
	def eva1( s: String ): Int = {
		s.hashCode * factor
}}

示例：Scalar Functions

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

代码实现

import TableAPI.WaterSensor
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.functions.ScalarFunction
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object Test_utf {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

    val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

    val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
      x.split(",").length==3
    }).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
      override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
    })

    val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

    //实例化UDF对象
    val hashCode = new HashCode(10)

    //****************************Table API:使用自定义ScalarFunction***************************
    val table_tf: Table = table.select('id,hashCode('id))

    table_tf.toAppendStream[Row].print("table_tf")


    //********************************SQL:使用自定义ScalarFunction******************************
    //注册视图
    tableEnv.createTemporaryView("table_view",table)
    //注册UDF
    tableEnv.registerFunction("hashCode",hashCode)
    //使用UDF
    val table_sql: Table = tableEnv.sqlQuery(
      """
        select id,hashCode(id) from table_view
      """.stripMargin)

    table_sql.toAppendStream[Row].print("table_sql")

    env.execute()

  }

}

//自定义UDF，继承ScalarFunction
//ScalarFunction：实现的是一进一出，类似于map
class HashCode(factor:Int) extends ScalarFunction{
  //必须实现eval方法，而且是public
    def eval(s:String):Int={
      //具体实现需求
      s.hashCode * factor - 10000
    }
}

表函数(Table Functions)

用户定义的表函数，也可以将0、1或多个标量值作为输入参数;与标量函数不同的是，它可以返回任意数量的行作为输出，而不是单个值
为了定义一个表函数,必须扩展org.apache.flink.table.functions中的基类TableFunction并实现(一个或多个) 求值方法
表函数的行为由其求值方法决定，求值方法必须是public的，并命名为eval

class Split(separator: String) extends TableFunction[(String, Int)]{
	def eval(str: String): Unit = {
		str.split(separator).foreach(word => collect((word, word.length)))
}}

示例：Table Functions

测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

代码实现

import TableAPI.WaterSensor
import org.apache.commons.math3.geometry.spherical.oned.ArcsSet.Split
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.functions.TableFunction
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object UDF_table {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

    val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

    val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
      x.split(",").length==3
    }).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
      override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
    })

    val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

    //**********************************Table API:使用自定义TableFunction**********************************
    //创建TableFunction实例
    val spilt = new Spilt("_")
    val table_tf: Table = table
      //使用侧输出流，关联经过UDF处理返回的数据
      .joinLateral(spilt('id) as ('word,'length))
      //在select中可以直接调用测输出流设置的字段
      .select('id,'ts,'vc,'word,'length)

    //转换成流输出
    table_tf.toAppendStream[Row].print("table_tf")

    //**********************************SQL:使用自定义TableFunction**********************************
    //注册视图
    tableEnv.createTemporaryView("table_view",table)
    //注册UDF
    tableEnv.registerFunction("split",spilt)
    //使用UDF
    //使用lateral table()来指定使用UDF后返回的数据信息，并未返回的信息，设置字段信息
    val table_sql: Table = tableEnv.sqlQuery(
      """
        select id, ts, vc, word, length from table_view,
        lateral table( split(id) ) as splitId(word,length)
      """.stripMargin)

    //转换成流输出
    table_sql.toAppendStream[Row].print("table_sql")

    env.execute()


  }

}

//自定义表函数,继承TableFunction，并设置最后返回的数据类型
//TableFunction：实现的是一进多出，类似于flatMap
class Spilt(separator:String) extends TableFunction[(String,Int)]{
  //实现eavl方法，并指定，输入的数据类型
  def eval(s:String): Unit ={
    //具体实现操作
    //示例：将传入的string类型进行拆分，然后foreach遍历
    s.split(separator).foreach(word=>{
     //通过collect发送出去传入的字符串以及字符串长度
      collect((word,word.length))
    })
  }
}

聚合函数(Aggregate Functions)

用户自定义聚合函数(User-Defined Aggregate Functions, UDAGGs)可以把一个表中的数据，聚合成-个标量值
用户定义的聚合函数，是通过继承AggregateFunction抽象类实现的
AggregationFunction要求必须实现的方法:
createAccumulator()
accumulate()
getValue()
AggregateFunction的工作原理如下:
a. 首先，它需要一个累加器(Accumulator) ，用来保存聚合中间结果的数据结构;可以通过调用createAccumulator()方法创建空累加器
b. 随后，对每个输入行调用函数的accumulate()方法来更新累加器
c. 处理完所有行后，将调用函数的getValue()方法来计算并返回最终结果

示例：Aggregate Functions
测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

实现代码

import TableAPI.WaterSensor
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.functions.AggregateFunction
import org.apache.flink.types.Row

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object UDF_AggregateFunctions {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

    val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

    val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
      x.split(",").length==3
    }).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
      override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
    })

    val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

    val avgTemp = new AvgTemp()

    //****************************Table API:使用自定义AggregateFunction***************************
    val table_avg: Table = table
      .groupBy('id)
      //使用自定义聚合函数，并对返回的数据重命名
      .aggregate(avgTemp('vc) as 'avgTemp)
      .select('id, 'avgTemp)

    table_avg.toRetractStream[Row].print("table api->")

    //********************************SQL:使用自定义AggregateFunction******************************
    tableEnv.createTemporaryView("table_view",table)
    //注册UDF
    tableEnv.registerFunction("avgTemp",avgTemp)
    //使用UDF
    val table_sql: Table = tableEnv.sqlQuery(
      """
        select id, avgTemp(vc) from table_view group by id
      """.stripMargin)

    table_sql.toRetractStream[Row].print("table sql->")

    env.execute()


  }
}

//定义一个类型
class AvgTempAcc{ var sum:Double=0.0; var count:Int=0 }


//自定义聚合函数,继承AggregateFunction，并设置最终返回类型
//AggregateFunction：实现的是多进一出，类似于聚合函数
class AvgTemp extends AggregateFunction[Double,AvgTempAcc] {

  //实现对传入的数据进行求平均数
  override def getValue(accumulator: AvgTempAcc): Double = accumulator.sum/accumulator.count

  //设置初始值
  override def createAccumulator(): AvgTempAcc = new AvgTempAcc

  //还需要实现一个具体的处理计算，accumulate,完成当传入一个数据应该执行的操作
  def accumulate(accumulator:AvgTempAcc, temp:Double):Unit={
    accumulator.sum+=temp
    accumulator.count+=1
  }
}

表聚合函数(Table Aggregate Functions)

用户定义的表聚合函数(User-Defined Table Aggregate Functions,UDTAGGs)，可以把一个表中数据，聚合为具有多行和多列的结果表
用户定义表聚合函数，是通过继承TableAggregateFunction抽象类来实现的

示例：Table Aggregate Functions
测试数据

ws_001,1577844001,24.0
ws_001,1577844002,23.0
ws_001,1577844003,23.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0
ws_002,1577844025,43.0
ws_002,1577844045,43.0
ws_001,1577844090,23.0
ws_002,1577844055,43.0
ws_003,1577844060,32.0

代码实现

import TableAPI.WaterSensor
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.functions.TableAggregateFunction
import org.apache.flink.types.Row
import org.apache.flink.util.Collector

//自定义类型
case class WaterSensor(id:String,ts:Long,vc:Double)
object UDF_TableAggregateFunctions {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,settings)

    val datas: DataStream[String] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")

    val dataStream: DataStream[WaterSensor] = datas.filter(x=>{
      x.split(",").length==3
    }).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) {
      override def extractTimestamp(t: WaterSensor): Long = t.ts * 1000L
    })

    val table: Table = tableEnv.fromDataStream(dataStream,'id,'ts.rowtime,'vc)

    //**********************************Table API:使用TableAggregateFunction**********************************
    //实例化一个表聚合函数的对象
    val top2Temp = new Top2Temp
    val table_api: Table = table
      .groupBy('id)
      //调用表聚合函数，指定传入的字段，并定义返回数据的字段名称
      .flatAggregate(top2Temp('vc) as('temp, 'rank))
      .select('id, 'temp, 'rank)

    table_api.toRetractStream[Row].print("table_api")

    env.execute()
	}
}

//定义一个类，来表示聚合函数的状态
class  Top2TempAcc{
  var highestTemp:Double=Double.MinValue
  var secondHighestTemp:Double=Double.MinValue
}

//自定义表聚合函数
class Top2Temp extends TableAggregateFunction[(Double,Int),Top2TempAcc]{

  //实例化一个状态类
  override def createAccumulator(): Top2TempAcc = new Top2TempAcc

  //实时计算聚合结果的函数accumulate
  def accumulate(acc:Top2TempAcc,temp: Double):Unit={
    //判断当前温度值，是否比状态中的值大
    if(temp>acc.highestTemp){
      //将原先的第一名退至第二名，第二名直接丢弃
      acc.secondHighestTemp=acc.highestTemp
      //有新传入的值当第一位
      acc.highestTemp=temp
    }else if (temp>acc.secondHighestTemp){//如果传入的值只比第二名高，则只替换第二名即可
      acc.secondHighestTemp=temp
    }
  }


  //实现一个输出结果的方法，最终处理完表中所有数据时调用,方法名只能是emitValue，不可变
  def emitValue(acc:Top2TempAcc,out:Collector[(Double,Int)]):Unit={
    out.collect((acc.highestTemp,1))
    out.collect((acc.secondHighestTemp,2))
  }
}

实践：Flink Table读取本地数据文件

老版本可以直接用OldCsv方法格式化数据，但高版本Flink，就需要单独引入格式化类型的依赖
示例:Csv格式
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-csv</artifactId>
<version>1.10.2</version>
</dependency>

测试数据

ws_001,1577844001,35.0
ws_002,1577844015,43.0
ws_003,1577844020,72.0
ws_001,1577844001,45.0
ws_002,1577844015,73.0

实现代码

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors._
import org.apache.flink.table.factories.TableSourceFactory

object TableApiTest {
  def main(args: Array[String]): Unit = {
    //创建流处理环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //创建表执行环境
    val tableEnv = StreamTableEnvironment.create(env)

    //读取本地CSV文件，并存入表中
    tableEnv.connect(new FileSystem().path("D:\\...\\InputTableCsv.txt"))
      .withFormat(new Csv) //指定读取数据文件格式
      .withSchema(new Schema()  //设置数据字段信息
      	  .field("id",DataTypes.STRING()) //第一列字段名：id 类型：String
          .field("ts",DataTypes.BIGINT()) //第二列字段名：ts 类型：Long
          .field("vc",DataTypes.DOUBLE()) //第三列字段名：vc 类型：Double
      ).createTemporaryTable("inputTable")  //创建一张表来保存读取得数据

    //根据表名生成Table类型得实例对象
    val table: Table = tableEnv.from("inputTable")
    //将Table实例对象输出（使用toAppendStream,需要引入import org.apache.flink.table.api.scala._）
    table.toAppendStream[(String,Long,Double)].print()
	
	//启动
    env.execute()
  }
}

运行结果

在这里插入图片描述

实践：Flink Table读取Kafka Topic中的数据

添加依赖

	<!- 根据自己使用的版本进行修改  ->
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-connector-kafka_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>

创建kafka Topic

kafka-topics.sh --create --zookeeper 192.168.**.**:2181 --topic tableTest --partitions 1 --replication-factor 1

创建生产者

kafka-console-producer.sh --topic tableTest --broker-list 192.168.**.**:9092

实现代码

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors._
import org.apache.flink.table.factories.TableSourceFactory

object TableApiTest {
  def main(args: Array[String]): Unit = {
    //创建流处理环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //创建表执行环境
    val tableEnv = StreamTableEnvironment.create(env)

    //2.2从Kafka中读取数据
    tableEnv.connect(new Kafka()
        .version("universal") //设置kafka版本：universal表示使用通用连接器，自动匹配最新版本，兼容0.10之后的版本
        .topic("tableTest") //指定消费的Topic
        .property("zookeeper.connect","192.168.95.99:2181") //指定zookeeper地址
        .property("bootstrap.servers","192.168.95.99:9092")	//指定kafka地址
    ).withFormat(new Csv())	//指定格式化标准
        .withSchema(new Schema()	//配置字段信息
            .field("id",DataTypes.STRING())
            .field("ts",DataTypes.BIGINT())
            .field("vc",DataTypes.DOUBLE())
        ).createTemporaryTable("kafkaInputTable")	//注册成表


    //根据表名生成Table类型得实例对象
    val table: Table = tableEnv.from("kafkaInputTable")
    //将Table实例对象输出（使用toAppendStream,需要加上import org.apache.flink.table.api.scala._）
    table.toAppendStream[(String,Long,Double)].print()

    env.execute()
  }
}

生产者输入数据

在这里插入图片描述

启动程序后接收到的数据

在这里插入图片描述

实践：DataStream转Table

测试数据

ws_001,1577844001,35.0
ws_002,1577844015,43.0
ws_003,1577844020,72.0
ws_001,1577844001,45.0
ws_002,1577844015,73.0

实现代码

import Source.WaterSensor
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.Table
import org.apache.flink.table.api.scala._

//定义样例类
case class WaterSensor(id:String,ts:Long,vc:Double)
object Example {
  def main(args: Array[String]): Unit = {
 	 //创建流处理执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

	//读取本地数据文件，生成DataStream
    val dataStream: DataStream[String] = env.readTextFile("D:\\...\\inputTableCsv.txt")
    
    //转换读取的数据为WaterSensor类型
    val dataStream2: DataStream[WaterSensor] = dataStream.filter(data => {
      val strings: Array[String] = data.split(",")
      strings.length == 3
    }).map(data => {
      val strings: Array[String] = data.split(",")
      WaterSensor(strings(0), strings(1).toLong, strings(2).toDouble)
    })

    //首先创建表执行环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env)

    //方式一：基于流创建一张表类型得对象
    val dataTable: Table = tableEnv.fromDataStream(dataStream2)
    //调用Table API进行转换
    val resultTable: Table = dataTable.select("id,vc").filter("id='ws_003'")

    //方式二：之间用SQL实现分析数据
    //注册视图
    tableEnv.createTemporaryView("dataTable",resultTable)
    val sqlTable: Table = tableEnv.sqlQuery("select id,vc from dataTable where id='ws_003'")

    //将通过API得到的表转换成流输出
    resultTable.toAppendStream[(String,Double)].print("table api")
    
    //将通过sql得到的表转换成流输出
    sqlTable.toAppendStream[(String,Double)].print("sql")
    
    env.execute()
  }
}

控制台输出数据

在这里插入图片描述

实践：将Table 数据输出至本地

示例代码

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema}

//定义样例类
case class WaterSensor(id:String,ts:Long,vc:Double)
object TableOutCsv {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //创建表执行环境
    val table: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,table)
    //读取本地数据文件，并转换成WaterSonser类型
    val dataStream: DataStream[WaterSensor] = env.readTextFile("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt")
      .map(a=>{
        val strings: Array[String] = a.split(",")
        WaterSensor(strings(0),strings(1).toLong,strings(2).toDouble)
      })
    //根据流创建一张Table类型得得对象
    val dataTable: Table = tableEnv.fromDataStream(dataStream)
    //调用Table API查询
    val dataTable2: Table = dataTable.select("id,vc")

    //注册输出表
    val outputPath:String="D:\\ideaProject\\FlinkDemo\\in\\outputTable.txt"

    tableEnv.connect(new FileSystem().path(outputPath))
      .withFormat(new Csv())
      .withSchema(
      new Schema()
        .field("id",DataTypes.STRING())
        .field("vc",DataTypes.DOUBLE())
    ).createTemporaryTable("outputTable")

    //将查询的Table insert到输出表
    dataTable2.insertInto("outputTable")
    //启动执行
    env.execute()
  }
}

测试数据

ws_001,1577844001,24.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0

执行前

在这里插入图片描述

执行后

在这里插入图片描述

注意：CsvTableSink只实现了BatchTableSink批处理表SInk和AppendStreamTableSink追加表Sink，如果使用了聚合运算等操作就无法保存使用CsvTableSink保存至本地

实践：将Table数据输出至Kafka

代码示例

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, Kafka, Schema}

object TableOutKafka {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //创建表执行环境
    val tableStream: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env, tableStream)

    //创建kafka输入表
    tableEnv.connect(new Kafka()
      .version("universal")
      .topic("inTable") //指定Topic
      .property("zookeeper.connect","192.168.**.**:2181")
      .property("bootstrap.servers","192.168.**.**:9092")
    ).withFormat(new Csv())
      .withSchema(new Schema()
      .field("id",DataTypes.STRING())
      .field("ts",DataTypes.BIGINT())
      .field("vc",DataTypes.DOUBLE())
    ).createTemporaryTable("kafkaInputTable")

    //根据表名生成Table类型得实例对象
    val table: Table = tableEnv.from("kafkaInputTable")
    //查询
    val resultTable: Table = table.select('id,'vc).filter('id === "ws_003")

    //创建Kafka输出表
    tableEnv.connect(new Kafka()
      .version("universal")
      .topic("outTable")
      .property("zookeeper.connect","192.168.95.99:2181")
      .property("bootstrap.servers","192.168.95.99:9092")
    ).withFormat(new Csv())//符合rfc格式得csv
      .withSchema(new Schema()
      .field("id",DataTypes.STRING())
      .field("vc",DataTypes.DOUBLE())
    ).createTemporaryTable("kafkaOutputTable")

    //查询结果插入输出表
    resultTable.insertInto("kafkaOutputTable")
    
    env.execute()
  }
}

创建对应的kafka生产者、消费者

生产者：kafka-console-producer.sh --topic inTable --broker-list 192.168.**.**:9092
消费者：kafka-console-consumer.sh --topic outTable--bootstrap-server 192.168.**.**:9092

在这里插入图片描述

启动程序

在生产者中输入数据，进行测试：ws_003,1577844020,32.0

在这里插入图片描述

这样就实现了kafka进kafka出的一个管道测试，但是注意，kafkaTableSink依旧只实现了Append追加模式

实践：将Table 数据输出至ES

添加依赖

	<!- 修改成自己使用的版本 ->
	<dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-connector-elasticsearch-base_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>

测试数据

ws_001,1577844001,24.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0

代码示例

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors._


object TableOutES {
  def main(args: Array[String]): Unit = {
  //创建流执行环境
  val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
  env.setParallelism(1)
  //创建表执行环境
  val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env)
  //2.1读取CSV文件，并存入表中
  tableEnv.connect(new FileSystem().path("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt"))
    .withFormat(new Csv) //指定读取数据文件格式
    .withSchema(new Schema()  //设置数据字段信息
    .field("id",DataTypes.STRING()) //第一列字段名：id 类型：String
    .field("ts",DataTypes.BIGINT()) //第二列字段名：ts 类型：Long
    .field("vc",DataTypes.DOUBLE()) //第三列字段名：vc 类型：Double
  ).createTemporaryTable("inputTable")  //创建一张表来保存读取得数据

  //根据表名生成Table类型得实例对象
  val tableData: Table = tableEnv.from("inputTable")
  //调用Table API聚合查询
  val dataTable2: Table = tableData.groupBy('id).select('id,'id.count as 'count)

//配置ES连接器，并注册表
  tableEnv.connect(new Elasticsearch()
  .version("6")
  .host("192.168.**.**",9200,"http")
    .index("sensor")
    .documentType("temperature")
  ).inUpsertMode() //ES支持Upsert模式
    .withFormat(new Json())   //需要引入Json依赖包
    .withSchema(new Schema()
  .field("id",DataTypes.STRING())
  .field("count",DataTypes.BIGINT())
  ).createTemporaryTable("esOutputTable")

	//将聚合的数据insert到ES注册的表中
  dataTable2.insertInto("esOutputTable")

  env.execute("es out put test")
}
}

查看ES

curl "192.168.**.**:9200/_cat/indices?v"

在这里插入图片描述
查看数据

curl "192.168.**.**:9200/sensor/_search?pretty"

在这里插入图片描述

实践：将Table 数据输出至MySQL

添加依赖

	<!- 根据自己使用的版本进行修改  ->
	<dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-jdbc_2.11</artifactId>
      <version>1.10.2</version>
    </dependency>

测试数据

ws_001,1577844001,24.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0

实现代码

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema}

object TableOutMySQL {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    //创建表执行环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env)
    //2.1读取CSV文件，并存入表中
    tableEnv.connect(new FileSystem().path("D:\\ideaProject\\FlinkDemo\\in\\StringToClass.txt"))
      .withFormat(new Csv) //指定读取数据文件格式
      .withSchema(new Schema()  //设置数据字段信息
      .field("id",DataTypes.STRING()) //第一列字段名：id 类型：String
      .field("ts",DataTypes.BIGINT()) //第二列字段名：ts 类型：Long
      .field("vc",DataTypes.DOUBLE()) //第三列字段名：vc 类型：Double
    ).createTemporaryTable("inputTable")  //创建一张表来保存读取得数据

    //根据表名生成Table类型得实例对象
    val tableData: Table = tableEnv.from("inputTable")
    //调用Table API聚合查询
    val dataTable2: Table = tableData.groupBy('id).select('id,'id.count as 'count)

    //配置连接MySQL的DDL
    //OutputToMySQLTables是在catalog中注册的表
    //flink_to_mysql才是mysql中的目标表名
    val sinkDDL=
      """
        |create table OutputToMySQLTable(
        | id varchar(20) not null,
        | cnt bigint not null
        | ) with (
        | 'connector.type' = 'jdbc',
        | 'connector.url' = 'jdbc:mysql://192.168.95.99:3306/test',
        | 'connector.table' = 'flink_to_mysql',
        | 'connector.driver' = 'com.mysql.jdbc.Driver',
        | 'connector.username' = 'root',
        | 'connector.password' = 'root123'
        | )
      """.stripMargin
		
	//执行DDL创建表
    tableEnv.sqlUpdate(sinkDDL) 
	
	//将查询的数据insert到Mysql中
    dataTable2.insertInto("OutputToMySQLTable")

    env.execute()
  }


}