自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Apache Flink 中的窗口处理机制

窗口是处理无界流的核心。窗口将流拆分成有限大小的“桶”,我们可以在桶上进行计算。本文重点介绍Flink中的窗口机制,以及程序员如何最大限度地利用Flink提供的窗口功能。

2023-08-29 00:44:41 401

原创 hudi 0.13.1 编译遇到的几个坑

hudi 0.13.1编译

2023-08-27 17:22:21 538

原创 PyFlink 物理分区(Physical Partitioning)

使用用户定义的Partitioner为每个元素选择目标任务。自定义分区允许用户实现自定义的分区逻辑,即控制每个元素发送到哪个下游任务。

2023-08-27 17:17:32 119

原创 PyFlink中定义函数的3种方式

Python DataStream API中针对不同的转换算子提供了不同的函数接口。例如,`map` 转换提供了`MapFunction`接口,`filter`转换提供了`FilterFunction`接口等。用户可以根据转换的类型实现对应的函数接口。

2023-08-27 17:14:11 252

原创 玩转PyFlink:自定义SourceFunction在实时数据处理中的运用

在PyFlink中,SourceFunction与其他算子(如Map、FlatMap等)的实现方式有所不同。本文将介绍PyFlink中如何自定义SourceFunction,并通过示例代码展示如何在实时数据处理中灵活应用自定义SourceFunction。

2023-08-27 17:12:01 521

原创 PyFlink快速上手 - 批/实时WordCount数据统计案例

PyFlink WordCount 案例

2023-08-27 17:08:29 623

原创 PyFlink PROCESS和THREAD执行模式区别

Flink Python API 提供了多种不同的运行时执行模式,您可以根据用例需求和作业特点选择合适的模式。这些执行模式定义了如何运行 Python 用户定义的函数。

2023-08-27 17:04:24 125

原创 掌握 PyFlink 中的依赖管理

在PyFlink 的 Python API程序内部需要使用依赖。例如,用户可能需要在Python用户定义函数中使用第三方Python库。此外,在机器学习预测等场景中,用户可能希望在Python用户定义函数中加载机器学习模型。当PyFlink作业在本地执行时,用户可以将第三方Python库安装到本地Python环境中,将机器学习模型下载到本地。然而,当用户想要将PyFlink任务提交到远程集群时,这种方法不太好用。在下面的部分中,我们将介绍PyFlink中为这些需求提供的选项。

2023-08-27 16:58:20 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除