【必读】3分钟带你了解流式数据架构基本概念

最新推荐文章于 2024-02-25 13:43:42 发布

一朝英雄拔剑起

最新推荐文章于 2024-02-25 13:43:42 发布

阅读量1.8k

点赞数 1

分类专栏：大数据文章标签：大数据 Flink 流式处理基本概念

本文链接：https://blog.csdn.net/qq_39545674/article/details/109516220

版权

21 篇文章 0 订阅

订阅专栏

1 流

流（streaming）是一种为无界数据集设计的数据处理引擎，这种引擎具备以下特征：

在无界数据处理中，主要有两类时间概念：

在现实世界里，事件时间和处理时间往往并不一致，两者的偏差也因数据源特性、处理引擎、硬件差别而千差万别，这种变化给处理引擎的设计带来了不小的挑战。

窗口是将（有界或无界）数据集拆分成一个个有限长度数据区间的机制，用于将事件按照时间或其他特征分组分析。通常有三类窗口：

水印（watermark）是嵌入在事件时间轴上用于判断事件时间窗口内所有数据均以到达引擎的一种时间推理工具，是一种既可以在流处理侧嵌入，又可以在消息系统侧嵌入的时间戳。

水印的语义是事件时间小于水印标记时间的事件不会再出现，在遇到水印后，会将事件时间小于水印时间的事件执行，因此水印是事件的推进器。

在这里插入图片描述

触发器（trigger）决定在窗口的什么时间点启动应用程序定义的数据处理任务。

水印迟到会拉长窗口生存周期，水印早到会导致数据处理结果不准确，触发器就是为了解决这两个问题而被引入的。

有界数据处理

通常使用批处理引擎处理有界数据集（尽管流处理引擎也具备这个功能）。
无界数据批处理

在流处理引擎没有出现之前，业界通常使用窗口机制将无界数据集分割成一系列有界数据块，使用批处理方式分析每个数据块，即微批处理模式
无界数据流式处理

基于微批模式的无界数据批处理的原理是，将多个微批处理任务串接起来构建流式数据处理任务，这通常是以牺牲延迟和吞吐为代价的。解决这个缺陷是流式处理引擎的发展目标之一，解决方案建立在分析无界数据集的无序和事件时间偏差特性的基础上。
- 无序意味着引擎需要时间处理机制
- 事件时间偏差意味着引擎不能假定在某个时间窗口内能观察到所有事件。

可以通过以下4个问题来深入理解流式数据处理的内在机制。

参考资料：《深入理解Flink 实时大数据处理实践》

关注