Flink的Table以及SQL

最新推荐文章于 2024-05-10 21:34:26 发布

TUJC

最新推荐文章于 2024-05-10 21:34:26 发布

阅读量1.4k

点赞数

分类专栏： Hadoop生态框架

本文链接：https://blog.csdn.net/TU_JCN/article/details/108173946

版权

Flink的Table以及SQL

1、Flink table以及SQL的基本介绍

Apache Flink 具有两个关系型API：Table API 和SQL，用于统一流和批处理。

Table API 是用于 Scala 和 Java 语言的查询API，允许以非常直观的方式组合关系运算符的查询，例如 select，filter 和 join。

Flink SQL 的支持是基于实现了SQL标准的 Apache Calcite。无论输入是批输入（DataSet）还是流输入（DataStream），任一接口中指定的查询都具有相同的语义并指定相同的结果。

Table API和SQL接口彼此集成，Flink的DataStream和DataSet API亦是如此。我们可以轻松地在基于API构建的所有API和库之间切换。

注意，到目前最新版本为止，Table API和SQL还有很多功能正在开发中。并非[Table API，SQL]和[stream，batch]输入的每种组合都支持所有操作

2、为什么需要SQL

SQL 作为一个"人所皆知"的语言，如果一个引擎提供 SQL，它将很容易被人们接受。这已经是业界很常见的现象了。

Table API 是一种关系型API，类 SQL 的API，用户可以像操作表一样地操作数据，非常的直观和方便。

Table & SQL API 还有另一个职责，就是流处理和批处理统一的API层。

3、Flink Table & SQL编程开发

官网介绍

Flink的tableAPI允许我们对流式处理以及批量处理都使用sql语句的方式来进行开发。只要我们知道了dataStream或者dataSet可以转换成为Table，那么我们就可以方便的从各个地方获取数据，然后转换成为Table，通过TableAPI或者SQL来实现我们的数据的处理等。

Flink的表API和SQL程序可以连接到其他外部系统来读写批处理表和流表。Table source提供对存储在外部系统(如数据库、键值存储、消息队列或文件系统)中的数据的访问。Table Sink将表发送到外部存储系统。

1、使用FlinkSQL实现读取CSV文件数据，并进行查询
需求：读取csv文件，文件内容参见课件当中的flinksql.csv文件，查询年龄大于18岁的人，并将结果写入到csv文件里面去
第一步：导入jar包

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.11</artifactId>
    <version>1.8.1</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-scala-bridge_2.11</artifactId>
    <version>1.8.1</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-scala_2.11</artifactId>
    <version>1.8.1</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-common</artifactId>
    <version>1.8.1</version>
</dependency>

第二步：开发代码读取csv文件并进行查询

import org.apache.flink.core.fs.FileSystem.WriteMode
import org.apache.flink.streaming.api.scala.{
   StreamExecutionEnvironment}
import org.apache.flink.table.api.{
   Table, Types}
import org.apache.flink.table.api.scala.StreamTableEnvironment
import org.apache.flink.table.sinks.{
   CsvTableSink}
import org.apache.flink.table.sources.CsvTableSource

object FlinkStreamSQL {
   
  def main(args: Array[String]): Unit = {
   
    //流式sql，获取运行环境
    val streamEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    //流式table处理环境
    val tableEnvironment: StreamTableEnvironment = StreamTableEnvironment.create(streamEnvironment)
    //注册我们的tableSource
    val source: CsvTableSource = CsvTableSource.builder()
      .field("id", Types.INT)
      .field("name", Types.STRING)
      .field("age", Types.INT)
      .fieldDelimiter(",")
      .ignoreFirstLine()
      .ignoreParseErrors()
      .lineDelimiter

最低0.47元/天解锁文章

TUJC

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flink的Table以及SQL

Flink的Table以及SQL1、Flink table以及SQL的基本介绍Apache Flink 具有两个关系型API：Table API 和SQL，用于统一流和批处理。Table API 是用于 Scala 和 Java 语言的查询API，允许以非常直观的方式组合关系运算符的查询，例如 select，filter 和 join。Flink SQL 的支持是基于实现了SQL标准的 Apache Calcite。无论输入是批输入（DataSet）还是流输入（DataStream），任一接口中指定
复制链接

扫一扫

专栏目录