自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Flink-状态与容错(了解 Flink 用于编写有状态程序的 API)

如果你希望使用 keyed state,首先需要为DataStream指定 key(主键)。这个主键用于状态分区(也会给数据流中的记录本身分区)。你可以使用DataStream中 Java/Scala API 的或者是 Python API 的来指定 key。它将生成,接下来允许使用 keyed state 操作。Key selector 函数接收单条记录作为输入,返回这条记录的 key。该 key 可以为任何类型,但是它的计算产生方式是具备确定性的。下面的例子展示了 key selector 函数。

2024-09-14 16:05:08 463

原创 Flink-用户自定义 Functions

(此处是计数器。

2024-09-14 12:04:26 661

原创 flink -故障恢复(后续补充完善)

执行模式下,Flink 会尝试并回溯到之前的中间结果仍可获取的处理阶段。只有失败的任务(或它们在图中的前辈)才可能需要重新启动。这与从 checkpoint 重新启动所有任务相比,可以提高作业的处理效率和整体处理时间。Checkpointing 用于故障恢复的特点之一是,在发生故障时,Flink 会从 checkpoint 重新启动所有正在运行的任务。模式下所要做的事情代价更高(如下文所解释),这也是如果你的任务允许的话应该使用。执行模式下,Flink 使用 checkpoints 进行故障恢复。

2024-09-13 17:34:21 224

原创 Flink-Watermarks的一些理解

方面,Flink 的流运行时间建立在一个事件(一个一个的事件)可能是乱序到来的悲观假设上的,即一个时间戳。下,数据是已知的,可以按照时间戳对元素进行排序,从而按照时间顺序进行处理。对于熟悉流的读者来说,在。为了摊平这种失序性对最终结果的影响,同时使系统实用,在。因为如此,系统永远无法确定在给定的时间戳。中,我们可以假设”完美的 Watermark“。模式下,Flink 使用了一种名为。的事件可能会在一个时间戳。的水印标志着再没有时间戳。下,未来不会再有时间戳。flink官网:在支持。

2024-09-13 17:31:59 118

原创 Flink-执行模式(流/批)

不管流模式亦或者是批模式,采取统一的处理方式(大部分的API两者都适用);如果适用批(BACH)模式,Flink 可以对有边界作业进行额外的优化。例如,可以使用不同的关联(join)/ 聚合(aggregation)策略、不同 shuffle 实现来提高任务调度和故障恢复的效率。批模式一般用于处理已知输入、不会连续运行的任务;流模式一般用于处理连续的无界数据;

2024-09-13 13:20:14 152

原创 Flink-控制延迟

默认情况下,元素不会在网络上一一传输(这会导致不必要的网络传输),而是被缓冲。缓冲区的大小(实际在机器之间传输)可以在 Flink 配置文件中设置;但是此种方式也会有延迟问题,当数据写入缓冲区过慢,会导致延迟问题;方法来设置缓冲区填满的最长等待时间。超过此时间后,即使缓冲区没有未满,也会被自动发送。超时时间的默认值为 100 毫秒。

2024-09-13 12:41:32 100

原创 Flink- Data Sinks

flink DataStream 通过Data sinks 将它们转发到文件、套接字、- 将元组写成逗号分隔值文件。行和字段的分隔符是可配置的。每个字段的值来自对象的。方法调用的自定义实现也可以参与 Flink 的 checkpointing,以实现。可选地,可以提供一个前缀(msg)附加到输出。如果并行度大于1,输出结果将附带输出任务标识符的前缀。支持自定义 object 到 byte 的转换。- 在标准输出/标准错误流上打印每个元素的。注意,DataStream 的。

2024-09-13 12:25:15 145

原创 Flink-DataSource

【代码】Flink-DataSource。

2024-09-13 11:08:43 179

原创 Flink-报错信息(flink版本1.11.1)

解决方法:引入依赖(Flink从1.15版本开始移除Scala依赖。通过分析报错和源码,发现需要引入`flink-clients`包解决本地运行问题)

2024-09-12 19:09:20 112

原创 Flink-DataStream API

【代码】Flink-DataStream API。

2024-09-12 19:05:45 187

原创 Flink 用户自定义函数(Demo)

消费所有的记录,然后计算报表所需内容,最后将结果以高效、可拓展的方式输出。按此逻辑实现,可以通过测试。Flink 内置的函数是有限的,有时是需要通过。函数不是系统预设函数,也可以自己实现。然后就可以在你的应用中使用了。

2024-09-12 13:07:39 222

原创 Flink-catalog 的一些理解

就是一个表的容器,里面可以创建数据输入表,数据输出表;至于输入和输出表的底层,也是可以指定的。flink 使用Table API 或者时候SQL的方式读取外部数据时(批流数据都可以),会在。

2024-09-12 12:59:21 182

原创 Flink 学习- ValueState(官网信息描述)

之后被调用的operator。一个 operator 中的。包含了 Flink 如何管理变量的一些元数据信息。,这是一种能够为被其封装的变量添加容错能力的类型。提供的 operator 中,即所有能够紧随。的作用域默认是属于它所属的 key 的。Flink 中最基础的状态类型是。

2024-09-12 12:14:07 172

原创 flink学习

官网地址:

2024-09-12 11:05:25 394

原创 spark读取mysql注意点

Spark读取MySQL数据_spark读取mysql10亿数据-CSDN博客

2024-09-10 12:56:57 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除