Flink-Table API 和 Flink SQL简介 | 新老版本Flink批流处理对比 | 读取文件和Kafka消费数据 | API 和 SQL查询表

最新推荐文章于 2024-06-10 19:54:23 发布

SmallScorpion

最新推荐文章于 2024-06-10 19:54:23 发布

阅读量1.1k

点赞数 1

分类专栏： Flink模块化学习文章标签： flink SQL api

本文链接：https://blog.csdn.net/qq_40180229/article/details/106457648

版权

本文介绍了Flink的Table API和SQL，它们为批处理和流处理提供统一接口。通过实例展示了如何使用Table API和SQL进行数据查询，包括连接文件和Kafka消费数据。此外，文章探讨了新老版本Flink在批流处理上的差异，以及运行时可能遇到的问题。

摘要由CSDN通过智能技术生成

GitHub

https://github.com/SmallScorpion/flink-tutorial.git

Table API 和 Flink SQL 是什么

Flink 对批处理和流处理，提供了统一的上层 API
Table API 是一套内嵌在 Java 和 Scala 语言中的查询API，它允许以非常直观的方式组合来自一些关系运算符的查询
Flink 的 SQL 支持基于实现了 SQL 标准的 Apache Calcite

在这里插入图片描述

基本程序结构

Table API 和 SQL 的程序结构，与流式处理的程序结构十分类似

在这里插入图片描述

POM

<dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner_2.11</artifactId>
            <version>1.10.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner-blink_2.11</artifactId>
            <version>1.10.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-csv</artifactId>
            <version>1.10.0</version>
        </dependency>

简单实例

import com.atguigu.bean.SensorReading
// 隐式转换
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.Table
// 隐式转换
import org.apache.flink.table.api.scala._

object Example {
   
  def main(args: Array[String]): Unit = {
   

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    val inputDStream: DataStream[String] = env.readTextFile("D:\\MyWork\\WorkSpaceIDEA\\flink-tutorial\\src\\main\\resources\\SensorReading.txt")

    val dataDstream: DataStream[SensorReading] = inputDStream.map(
      data => {
   
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    // 1. 基于env创建表环境
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env)

    // 2. 基于tableEnv 将流转换成表
    val dataTable: Table = tableEnv.fromDataStream(dataDstream)

    // 3. 只输出id为sensor_1的id和温度值
    // 3.1 调用table api，做转换操作
    val resultTable: Table = dataTable
      .select("id, temperature")
      .filter("id == 'sensor_1'")

    // 3.2 直接调用SQL - 写sql实现转换
    tableEnv.registerTable("dataTable", dataTable) // 注册表
    val resultSqlTable: Table = tableEnv.sqlQuery(
      """
        |select
        |   id, temperature
        |from
        |   dataTable
        |where
        |   id = 'sensor_1'
        |""".stripMargin
    )

    // 4. 将表转换成流操作
    resultTable.toAppendStream[ (String, Double) ].print(