PyFlink
文章平均质量分 86
大数据与Python
专注于分享Python大数据、爬虫、后端开发、机器学习等技术文章,我会定期推送通俗易懂的技术教程,通过项目实战帮助您快速掌握这些技能。
展开
-
Apache Flink 中的窗口处理机制
窗口是处理无界流的核心。窗口将流拆分成有限大小的“桶”,我们可以在桶上进行计算。本文重点介绍Flink中的窗口机制,以及程序员如何最大限度地利用Flink提供的窗口功能。原创 2023-08-29 00:44:41 · 456 阅读 · 0 评论 -
PyFlink 物理分区(Physical Partitioning)
使用用户定义的Partitioner为每个元素选择目标任务。自定义分区允许用户实现自定义的分区逻辑,即控制每个元素发送到哪个下游任务。原创 2023-08-27 17:17:32 · 159 阅读 · 0 评论 -
PyFlink中定义函数的3种方式
Python DataStream API中针对不同的转换算子提供了不同的函数接口。例如,`map` 转换提供了`MapFunction`接口,`filter`转换提供了`FilterFunction`接口等。用户可以根据转换的类型实现对应的函数接口。原创 2023-08-27 17:14:11 · 313 阅读 · 0 评论 -
玩转PyFlink:自定义SourceFunction在实时数据处理中的运用
在PyFlink中,SourceFunction与其他算子(如Map、FlatMap等)的实现方式有所不同。本文将介绍PyFlink中如何自定义SourceFunction,并通过示例代码展示如何在实时数据处理中灵活应用自定义SourceFunction。原创 2023-08-27 17:12:01 · 625 阅读 · 0 评论 -
PyFlink快速上手 - 批/实时WordCount数据统计案例
PyFlink WordCount 案例原创 2023-08-27 17:08:29 · 745 阅读 · 0 评论 -
PyFlink PROCESS和THREAD执行模式区别
Flink Python API 提供了多种不同的运行时执行模式,您可以根据用例需求和作业特点选择合适的模式。这些执行模式定义了如何运行 Python 用户定义的函数。原创 2023-08-27 17:04:24 · 177 阅读 · 0 评论 -
掌握 PyFlink 中的依赖管理
在PyFlink 的 Python API程序内部需要使用依赖。例如,用户可能需要在Python用户定义函数中使用第三方Python库。此外,在机器学习预测等场景中,用户可能希望在Python用户定义函数中加载机器学习模型。当PyFlink作业在本地执行时,用户可以将第三方Python库安装到本地Python环境中,将机器学习模型下载到本地。然而,当用户想要将PyFlink任务提交到远程集群时,这种方法不太好用。在下面的部分中,我们将介绍PyFlink中为这些需求提供的选项。原创 2023-08-27 16:58:20 · 582 阅读 · 0 评论