Flink
文章平均质量分 90
Flink 学习笔记分享
GatsbyNewton
这个作者很懒,什么都没留下…
展开
-
Flink原理与实现:数据交换策略
数据交换策略(Data Exchange Strategy)定义了数据如何被分配到物理数据流图的 Task 中的。原创 2022-11-07 22:25:02 · 1646 阅读 · 1 评论 -
Streaming Systems: Watermark
Watermark原创 2021-10-17 23:11:54 · 287 阅读 · 0 评论 -
Streaming Systems: the What, Where, When and How of Data Processing
1.原创 2021-08-22 21:01:45 · 313 阅读 · 0 评论 -
Streaming Systems: Concept
流式数据处理在当今大数据领域是非常重要,这是有足够充分的理由的,如下:企业需要更及时地洞察他们的数据,而流式数据是实现更低延迟的一个好方法;现在商业中有海量无界的数据,使用为永不结束的数据设计的系统处理它们就更为容易;当数据一到达就进行处理,工作负载会随着时间推移更加均匀地分布,从而产生更一致和可预测的资源消耗。术语:Streaming 是什么?在讨论可能遇到的不同类型的数据时,精确的术语也是很有用的。通过两个重要且正交的维度对数据可以唯一确定——Cardinality(基数)和 Consti原创 2021-06-27 22:52:40 · 436 阅读 · 1 评论 -
Flink 调优:大规模状态数据集中的 Checkpoint 实战
Checkpoint 的配置对于 Flink 应用程序的性能和稳定性有这至关重要的影响,本文介绍大规模状态数据集中的 Checkpoint 实战。翻译 2020-09-06 23:27:39 · 1787 阅读 · 1 评论 -
动态表的持续查询
Flink 的关系 API 非常适合立即实施流分析应用程序,并且可以在多种生产环境中使用。在本文中,我们讨论了 Table API 和 SQL 的未来。翻译 2020-07-06 23:35:15 · 529 阅读 · 0 评论 -
Flink 调优:Checkpoint 问题排查
在使用 Flink 时, 我们基本都会用到 Checkpoint,也难免不会遇到 Checkpoint 慢或者失败等问题,本文介绍了 Checkpoint 问题排查的方法。原创 2020-05-24 14:48:01 · 3341 阅读 · 0 评论 -
Flink 调优:Checkpoint 配置
Checkpoint 是 Flink 的失败恢复机制,它的配置对于 Flink 应用程序的性能和稳定性有这至关重要的影响。原创 2020-05-04 11:02:01 · 7603 阅读 · 2 评论 -
Flink 调优:Slot and Parallelism
Flink 的并发度的设置直接影响应用程序的性能,本文介绍了应该如何设置并发度的方法。原创 2020-04-07 00:14:42 · 1922 阅读 · 0 评论 -
Flink 原理与实现:Savepoint
在 Flink 原理与实现:Checkpoint 这篇文章中,我介绍了 Flink Checkpoint。Checkpoint 是 Flink 内置的失败恢复机制。SavepointSavepoint 是 Flink 的一个非常重要的特征,被 Flink PMC 誉为“瑞士军刀(Swiss Army knife)”。Savepoint 的实现算法和 Checkpoint 一样。但是,Savep...原创 2020-03-01 01:22:15 · 1003 阅读 · 0 评论 -
Flink 原理与实现:Checkpoint
本文尝试用图形化语言将抽象的 Checkpoint 具象化,阐述 Naive Consistent Checkpoint、Flink Checkpoint、Failure Recovery Mechanism、以及Performance of Checkpointing。原创 2019-12-07 21:27:50 · 1674 阅读 · 0 评论 -
Flink 原理与实现:State
本文尝试解释 State stream processing,从 Flink 的角度,阐述 State management 和 State repartition。原创 2019-11-29 22:27:35 · 1075 阅读 · 0 评论 -
Flink 原理与实现:再谈反压
基于信用的反压原创 2019-08-25 11:32:41 · 2045 阅读 · 0 评论 -
Flink 原理与实现:如何处理反压问题
流处理系统需要能优雅地处理反压(backpressure)问题。反压通常产生于这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停顿可能会导致流入的数据快速堆积,或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理,可能会导致资源耗尽甚至系统崩溃。目前主流的流处理系统 Storm/JStorm/Spark Streaming/...转载 2019-06-15 14:51:34 · 12817 阅读 · 0 评论 -
流计算中的 Exactly Once 语义
在大数据领域,分布式事件流处理已经成为了热门话题。目前流行的流处理引擎包括 Apache Storm、Apache Flink、Heron、Apache Kafka(Kafka Streams)和 Apache Spark(Spark Streaming)。流处理引擎被广泛讨论的一个特性——Extractly-Once,很多引擎也已经宣称支持。然而,关于 Extractly-Once 是什么,当...翻译 2019-07-13 16:28:12 · 2757 阅读 · 0 评论 -
Apache Flink 事件时间处理和 Watermarks
如果你正在搭建一个实时流程序,事件时间处理是你不久将不得不使用的一个功能之一。因为在现实世界中绝大多数用例的消息都是乱序的,你的系统应该有一个方法应对和处理可能延迟的消息。在这篇博客中,我们将会看到为什么我们需要事件时间处理和我们怎么在 Flink 中使用它。EvenTime 是一个事件在现实世界中发生时的时间。ProcessingTime 是该事件被 Flink 处理时的时间。为了理解事件时间...翻译 2019-04-07 12:55:55 · 783 阅读 · 0 评论