m0_66520412-CSDN博客

原创 flink数据源#

这两种情况之间的差异很小：在有界/批处理情况下，枚举器会生成一组固定的拆分，并且每个拆分必然是有限的。在无界流式处理情况下，两者之一不成立（拆分不是有限的，或者枚举器不断生成新的拆分）。一旦找到新文件，它就会为它们生成新的拆分，并可以将它们分配给可用的 SourceReaders。是源使用的数据的一部分，如文件或日志分区。下面是一些简化的概念示例，用于说明数据源组件在流式处理和批处理情况下的交互方式。源具有要读取的目录的 URI/路径，以及定义如何分析文件的。的积压工作，并以平衡的方式将它们分配给读取器。

2024-01-29 19:58:00 894

原创 flink词汇表

在检查点期间存储其快照的位置（的 Java 堆或文件系统）。

2024-01-26 18:54:52 903 1

原创 flink架构

Flink 应用集群是专用的 Flink 仅从一个 Flink 应用程序执行作业的集群，并且该方法在集群而不是客户端上运行。目前，槽仅分隔任务的托管内存。：在 Flink 应用集群中，ResourceManager 和 Dispatcher 的范围限定为单个 Flink 应用程序，它提供了一个比 Flink 会话集群更好的关注点分离。通过插槽共享，增加在我们的示例中，从 2 到 6 的基本并行性可以充分利用分配的资源，同时确保繁重的子任务是公平的分布在 TaskManager 之间。

2024-01-25 18:14:24 968

原创 Flink 的 API

遵循（扩展的）关系模型：表附加了一个架构（类似于关系数据库中的表），API 提供类似的操作，例如 select、project、join、group-by、aggregate 等。这些流畅的 API 提供了用于数据处理的常见构建块，例如各种形式的用户指定的转换、联接、聚合、窗口、状态等。这些 API 中处理的数据类型表示为各自的编程语言。此外，用户可以注册事件时间和处理时间回调，允许实现复杂计算的程序。为中心的声明性 DSL，它可以动态更改表（表示流时）。最低级别的抽象只是提供。

2024-01-24 19:39:31 425 1

原创流分析&活动时间和水印

事实上，你对这个流的未来有一些神一样的知识，并且您可以看到，您的流排序器应该至少等到 2 到达，然后再生成任何结果。您可以积极地配置水印，并具有较短的有限延迟，从而冒着在对输入的不完全了解的情况下产生结果的风险——即可能错误的结果，产生得很快。但是在你的自己的应用程序，您必须自己处理，这通常是通过实现来完成的一个类，用于从事件中提取时间戳，并按需生成水印。Flink 将此策略称为。（3）然后，您需要的是某种策略，该策略定义何时，对于任何给定的时间戳事件，何时不要再等待早期事件的到来了。

2024-01-23 18:34:01 790 1

原创 flink通过状态快照实现容错

Flink 会定期获取每个 Operator 中所有状态的持久化快照，并将这些快照复制到更持久的地方，例如分布式文件系统。Flink 管理的键控状态是一种分片的键/值存储，以及每个键/值存储的工作副本键控状态的项保留在负责该键的 TaskManager 的本地某个位置。算子 state 也是需要它的计算机的本地状态。有两种状态后端的实现可用——一种基于 RocksDB，一种嵌入式键/值存储，可保持其工作状态 disk，以及另一个基于堆的状态后端，该后端将其工作状态保存在 Java 堆上的内存中。

2024-01-22 19:24:15 787

原创 flink之定时器（Timer）

由于EventTime类型定时器是由Watermark,那么只要任务产生watermark就能正常触发恢复的定时任务，但是ProcessingTime类型的定时器是由系统注册的延时调度来触发，所以在重启的时候获取到队列中第一个元素来注册延时调度，保证其恢复之后的正常触发。flink为了保证定时触发操作(onTimer)与正常处理(processElement)操作的线程安全，做了同步处理，在调用触发时必须要获取到锁，也就是二者同时只能有一个执行，因此一定要保证onTimer处理的速度，以免任务发生阻塞。

2024-01-20 19:03:30 758

m0_66520412的博客

原创 flink数据源#

原创 flink词汇表

原创 flink架构

原创 Flink 的 API

原创流分析&活动时间和水印

原创 flink通过状态快照实现容错

原创 flink之定时器（Timer）

原创 flink窗口（Window）

原创 flink订阅（读取）kafka的数据

原创 flink的时间语义

空空如也

空空如也