03-flink编程模型

最新推荐文章于 2023-05-04 07:46:25 发布

蜗牛写java

最新推荐文章于 2023-05-04 07:46:25 发布

阅读量201

点赞数 1

分类专栏： flink

本文链接：https://blog.csdn.net/dwb502/article/details/100175252

版权

flink 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

03-flink编程模型

Flink编程接口

根据数据类型分为两大类：

支持批计算的接口DataSet API
支持流计算的接口DataStream API

同时flink将数据处理接口抽象成四层，由上往下分别为

SQL API

主要是学习成本低，能够快速上手
Table API

将内存中的DataStream和DateSet数据集在原有的基础上增加Schema信息，将数据类型统一抽象成表结构，然后通过Table API提供的接口处理对应的数据集
DataStream/DataSet API

面向开发用户，处理无界数据流和批量数据
Stateful Stream Processing API

stateful Stream最底层接口，用户可以使用Stateful Stream Process接口操作状态、时间等底层数据

用户可以根据需求选择任意一层抽象接口来开发Flink引用

在这里插入图片描述

编程模型

在这里插入图片描述

设置执行环境
创建数据源(可以多个数据源)
对数据进行不同方式的转换(算子)
指定数据去向(对结果的数据进行sink,可以输出到多个地方)

//1.设定执行环境	
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.getConfig().setGlobalJobParameters(params);
//2.创建数据源
DataStream<String> text = env.readTextFile("file://path/file");
//3.对数据进行不同方式的转换
DataStream<Tuple2<String, Integer>> counts = text.flatMap(new Tokenizer()).keyBy(0).sum(1);
//4.指定数据去向(例子中，打印到控制台也是一种数据去向)
counts.print();
//5.指定名称并触发流式任务(批处理不需要该步骤)
env.execute("Streaming WordCount");