自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 flink数据源#

这两种情况之间的差异很小:在有界/批处理情况下,枚举器会生成一组固定的拆分,并且每个拆分必然是有限的。在无界流式处理情况下,两者之一不成立(拆分不是有限的,或者枚举器不断生成新的拆分)。一旦找到新文件,它就会为它们生成新的拆分,并可以将它们分配给可用的 SourceReaders。是源使用的数据的一部分,如文件或日志分区。下面是一些简化的概念示例,用于说明数据源组件在流式处理和批处理情况下的交互方式。源具有要读取的目录的 URI/路径,以及定义如何分析文件的。的积压工作,并以平衡的方式将它们分配给读取器。

2024-01-29 19:58:00 894

原创 flink词汇表

在检查点期间存储其快照的位置(的 Java 堆或文件系统)。

2024-01-26 18:54:52 903 1

原创 flink架构

Flink 应用集群是专用的 Flink 仅从一个 Flink 应用程序执行作业的集群,并且该方法在集群而不是客户端上运行。目前,槽仅分隔任务的托管内存。:在 Flink 应用集群中,ResourceManager 和 Dispatcher 的范围限定为单个 Flink 应用程序,它提供了一个 比 Flink 会话集群更好的关注点分离。通过插槽共享,增加 在我们的示例中,从 2 到 6 的基本并行性可以充分利用 分配的资源,同时确保繁重的子任务是公平的 分布在 TaskManager 之间。

2024-01-25 18:14:24 968

原创 Flink 的 API

遵循 (扩展的)关系模型:表附加了一个架构(类似于 关系数据库中的表),API 提供类似的操作, 例如 select、project、join、group-by、aggregate 等。这些流畅的 API 提供了 用于数据处理的常见构建块,例如各种形式的 用户指定的转换、联接、聚合、窗口、状态等。这些 API 中处理的数据类型表示为 各自的编程语言。此外,用户可以注册事件时间和处理时间回调,允许 实现复杂计算的程序。为中心的声明性 DSL,它可以 动态更改表(表示流时)。最低级别的抽象只是提供。

2024-01-24 19:39:31 425 1

原创 流分析&活动时间和水印

事实上,你对这个流的未来有一些神一样的知识,并且 您可以看到,您的流排序器应该至少等到 2 到达,然后再生成任何 结果。您可以积极地配置水印,并具有较短的有限延迟,从而 冒着在对输入的不完全了解的情况下产生结果的风险——即可能 错误的结果,产生得很快。但是在你的 自己的应用程序,您必须自己处理,这通常是通过实现来完成的 一个类,用于从事件中提取时间戳,并按需生成水印。Flink 将此策略称为。(3) 然后,您需要的是某种策略,该策略定义何时,对于任何给定的时间戳事件,何时 不要再等待早期事件的到来了。

2024-01-23 18:34:01 790 1

原创 flink通过状态快照实现容错

Flink 会定期获取每个 Operator 中所有状态的持久化快照,并将这些快照复制到更持久的地方,例如分布式文件系统。Flink 管理的键控状态是一种分片的键/值存储,以及每个键/值存储的工作副本 键控状态的项保留在负责该键的 TaskManager 的本地某个位置。算子 state 也是需要它的计算机的本地状态。有两种状态后端的实现可用——一种基于 RocksDB,一种嵌入式键/值存储,可保持其工作状态 disk,以及另一个基于堆的状态后端,该后端将其工作状态保存在 Java 堆上的内存中。

2024-01-22 19:24:15 787

原创 flink之定时器(Timer)

由于EventTime类型定时器是由Watermark,那么只要任务产生watermark就能正常触发恢复的定时任务,但是ProcessingTime类型的定时器是由系统注册的延时调度来触发,所以在重启的时候获取到队列中第一个元素来注册延时调度,保证其恢复之后的正常触发。flink为了保证定时触发操作(onTimer)与正常处理(processElement)操作的线程安全,做了同步处理,在调用触发时必须要获取到锁,也就是二者同时只能有一个执行,因此一定要保证onTimer处理的速度,以免任务发生阻塞。

2024-01-20 19:03:30 758

原创 flink窗口(Window)

Flink 是一种流式计算引擎,主要是来处理无界数据流的,数据源源不断、无穷无尽。想 要更加方便高效地处理无界流,一种方式就是将无限数据切割成有限的“数据块”进行处理, 这就是所谓的“窗口”(Window)。

2024-01-19 19:11:18 715

原创 flink订阅(读取)kafka的数据

kafka-console-consumer.sh --bootstrap-server bigdata1:9092 --from-beginning --topic 主题名称。这个会以逗号进行分割,分割成数组,要以数组的方式进行读取,上图的红色数字是数组的索引,就像我上面代码中‘data(0)’这个代表我要读取索引为0的元素。②所写的代码是只读取最新的流数据,所以要让kafka主题里的数据一直生成,那样才能读取到数据。

2024-01-19 08:35:48 552

原创 flink的时间语义

flink中,如果定义一个一小时的时间窗口,并处理这一小时的窗口内的数据,那么这一个小时是怎么定义的呢?换句话说,这个一小时是物理机系统时间还是数据中定义的时间,这时就会用到时间语义。

2024-01-17 19:48:22 316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除