Flink 流处理核心编程及算子操作

最新推荐文章于 2024-07-25 11:50:51 发布

bigdata_HQL

最新推荐文章于 2024-07-25 11:50:51 发布

阅读量1.4k

点赞数 3

分类专栏： flink 大数据文章标签： flink java 大数据

本文链接：https://blog.csdn.net/qq_52171695/article/details/121305567

版权

本文介绍了Flink流处理的核心编程，包括Environment运行环境的设置，详细讲解了Source数据来源，如文件、网络、Kafka等，并深入探讨了Flink的转换算子，如map、flatMap、filter、keyBy、shuffle、connect、union、reduce等的使用和区别，同时提到了process算子和重分区算子的特点。适合Flink初学者和大数据爱好者参考。

摘要由CSDN通过智能技术生成

Flink 流处理核心编程及算子操作

经过一段时间的学习，我对flink流处理的编程基础、核心API（转换算子）、开发流程等做出了如下整理。
在这里插入图片描述

Environment运行环境

从flink1.12.0起，flink在真正的意义上实现了流批一体。
flink的运行环境包括批处理环境和流处理环境
在开发过程中获取比较简单，只需要如下操作

// 批处理环境
ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment();
// 流式数据处理环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

Source数据来源
Flink框架可以从不同的来源获取数据，将数据提交给框架进行处理, 我们将获取数据的来源称之为数据源(Source)。
比如集合、文件、网络端口、kafka、hdfs以及自定义等等。
这些比较简单

比如从文件中获取

readTextFile("input")

从网络端口获取

env.socketTextStream("localhost", 9999)

从kafka获取

KafkaSource<String> source = KafkaSource.<String>builder()
    .setBootstrapServers(brokers)
    .setTopics("input-topic")
    .setGroupId("my-group")
    .setStartingOffsets(OffsetsInitializer.earliest())
    .setValueOnlyDeserializer(new SimpleStringSchema())
    .build();

env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>3.1.3</version>
</dependency>

自定义Source

需要实现SourceFunction相关接口，
重写run()和canel()方法，需要指定并行度的话可以实现ParallelSourceFunction这个接口

public static class 
AppMarketingDataSource

最低0.47元/天解锁文章

bigdata_HQL

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录