- 博客(8)
- 收藏
- 关注
原创 Apache Flink 中的窗口处理机制
窗口是处理无界流的核心。窗口将流拆分成有限大小的“桶”,我们可以在桶上进行计算。本文重点介绍Flink中的窗口机制,以及程序员如何最大限度地利用Flink提供的窗口功能。
2023-08-29 00:44:41
401
原创 PyFlink 物理分区(Physical Partitioning)
使用用户定义的Partitioner为每个元素选择目标任务。自定义分区允许用户实现自定义的分区逻辑,即控制每个元素发送到哪个下游任务。
2023-08-27 17:17:32
119
原创 PyFlink中定义函数的3种方式
Python DataStream API中针对不同的转换算子提供了不同的函数接口。例如,`map` 转换提供了`MapFunction`接口,`filter`转换提供了`FilterFunction`接口等。用户可以根据转换的类型实现对应的函数接口。
2023-08-27 17:14:11
252
原创 玩转PyFlink:自定义SourceFunction在实时数据处理中的运用
在PyFlink中,SourceFunction与其他算子(如Map、FlatMap等)的实现方式有所不同。本文将介绍PyFlink中如何自定义SourceFunction,并通过示例代码展示如何在实时数据处理中灵活应用自定义SourceFunction。
2023-08-27 17:12:01
521
原创 PyFlink PROCESS和THREAD执行模式区别
Flink Python API 提供了多种不同的运行时执行模式,您可以根据用例需求和作业特点选择合适的模式。这些执行模式定义了如何运行 Python 用户定义的函数。
2023-08-27 17:04:24
125
原创 掌握 PyFlink 中的依赖管理
在PyFlink 的 Python API程序内部需要使用依赖。例如,用户可能需要在Python用户定义函数中使用第三方Python库。此外,在机器学习预测等场景中,用户可能希望在Python用户定义函数中加载机器学习模型。当PyFlink作业在本地执行时,用户可以将第三方Python库安装到本地Python环境中,将机器学习模型下载到本地。然而,当用户想要将PyFlink任务提交到远程集群时,这种方法不太好用。在下面的部分中,我们将介绍PyFlink中为这些需求提供的选项。
2023-08-27 16:58:20
481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人