【必读】3分钟带你了解流式数据架构基本概念

1 流

流(streaming)是一种为无界数据集设计的数据处理引擎,这种引擎具备以下特征:

  • 具备强一致性,即支持exactly-once语义。
  • 提供丰富的时间工具,如事件时间、处理时间、窗口等。
  • 保证系统具有可弹性、伸缩性。
  • 同时保证高吞吐、低延迟与容错。
  • 支持高级语义,如流式关系型API(SQL)、复杂事件处理(CEP)

2 时间

在无界数据处理中,主要有两类时间概念:

  • 事件时间(Event Time):事件实际发生的时间。
  • 处理时间(Processing Time):事件被处理的时间。

在现实世界里,事件时间和处理时间往往并不一致,两者的偏差也因数据源特性、处理引擎、硬件差别而千差万别,这种变化给处理引擎的设计带来了不小的挑战。

3 窗口

窗口是将(有界或无界)数据集拆分成一个个有限长度数据区间的机制,用于将事件按照时间或其他特征分组分析。通常有三类窗口:

  • 滚动窗口(Tumbling Window)

    将时间拆分成固定长度。

  • 滑动窗口(Sliding Window)

    按照滑动步长将时间拆分成固定的长度。当滑动步长小于窗口长度时,相邻窗口间会有重叠。

  • 会话窗口(Session Window)

    以活动时间间隔为边界,将一系列连续时间拆分到不同的会话中。会话窗口的长度是动态的。

4 水印

水印(watermark)是嵌入在事件时间轴上用于判断事件时间窗口内所有数据均以到达引擎的一种时间推理工具,是一种既可以在流处理侧嵌入,又可以在消息系统侧嵌入的时间戳。

水印的语义是事件时间小于水印标记时间的事件不会再出现,在遇到水印后,会将事件时间小于水印时间的事件执行,因此水印是事件的推进器。

在这里插入图片描述

5 触发器

触发器(trigger)决定在窗口的什么时间点启动应用程序定义的数据处理任务。

水印迟到会拉长窗口生存周期,水印早到会导致数据处理结果不准确,触发器就是为了解决这两个问题而被引入的。

6 数据处理模式

  • 有界数据处理

    通常使用批处理引擎处理有界数据集(尽管流处理引擎也具备这个功能)。

  • 无界数据批处理

    在流处理引擎没有出现之前,业界通常使用窗口机制将无界数据集分割成一系列有界数据块,使用批处理方式分析每个数据块,即微批处理模式

  • 无界数据流式处理

    基于微批模式的无界数据批处理的原理是,将多个微批处理任务串接起来构建流式数据处理任务,这通常是以牺牲延迟和吞吐为代价的。解决这个缺陷是流式处理引擎的发展目标之一,解决方案建立在分析无界数据集的无序和事件时间偏差特性的基础上。

    • 无序意味着引擎需要时间处理机制
    • 事件时间偏差意味着引擎不能假定在某个时间窗口内能观察到所有事件。

7 如何理解流式数据架构的内在机制

可以通过以下4个问题来深入理解流式数据处理的内在机制。

  • what:定义数据处理是什么,即对数据进行怎样的转换操作,如Spark的算子。
  • where:定义转换操作的输入数据取自什么时间区间,窗口是这个问题的答案。
  • when:定义转换操作发生在时间轴的什么时间点,水印和触发器是这个问题的答案。
  • how:定义如何刻画同一窗口内多次转换操作结果的关系,累计模式是这个问题的答案。

参考资料:《深入理解Flink 实时大数据处理实践》

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: 好的,以下是一些你需要知道的Spark知识点: 1. Spark是一个基于内存的分布式计算框架,可以处理大规模数据集。 2. Spark的核心概念是RDD(弹性分布式数据集),它是一个可分区、可并行计算的数据集合。 3. Spark支持多种编程语言,包括Scala、Java、Python和R。 4. Spark可以与多种数据存储系统集成,包括Hadoop HDFS、Cassandra、HBase和Amazon S3等。 5. Spark提供了多种高级API,包括Spark SQL、Spark Streaming和MLlib等,可以用于数据处理、流处理和机器学习等任务。 6. Spark可以在本地模式下运行,也可以在集群模式下运行,支持多种集群管理器,包括Apache Mesos、Hadoop YARN和Standalone等。 7. Spark的性能优于Hadoop MapReduce,因为它可以将数据存储在内存中,从而避免了磁盘I/O的开销。 8. Spark还提供了一些优化技术,包括内存管理、数据分区和任务调度等,可以进一步提高性能。 希望这些知识点对你有所帮助! ### 回答2: 作为一名数据科学家或大数据工程师,掌握分布式计算框架Spark是必不可少的技能之一。Spark具有高效的内存计算能力、易于使用的API、丰富的生态系统等优点,因此它被广泛应用于数据处理、机器学习、图像处理等领域。在掌握Spark的过程中,有一些关键知识点需要牢记。 1. RDD与DataFrame的区别 Spark中最常用的数据结构有两种:RDD和DataFrame。RDD是不可变的分布式数据集,可以被分割并存储在不同的节点上进行处理。DataFrame是一种类似于关系型数据库表的结构,它提供了更高层次的API,可用于数据的查询、筛选和聚合。 2. Lazy Evaluation Spark中的操作具有“惰性求值”的特性,即只有在需要结果时才会实际执行操作。这种特性可以提高Spark的性能,因为它避免了不必要的计算和数据移动。但是,需要注意的是,当我们使用了多个转换操作时,可能会导致Spark在内存中存储所有转换的中间结果,从而导致内存不足的问题。 3. Shuffle的开销 Shuffle是指Spark中需要重新分区数据的过程。Shuffle操作通常会导致网络传输和磁盘IO的开销,并且会使Spark的性能下降。因此,我们应尽量避免过多的Shuffle操作,并且优化Shuffle的过程。 4. Spark调优 对于大规模数据处理任务,Spark的性能和稳定性都十分关键。因此,我们需要对Spark进行调优,以提高它的性能和减少故障。具体来说,我们可以通过增加内存分配、调整分区数量、合理设置并发度等方式来优化Spark的性能。 总之,掌握这些Spark的关键知识点有助于我们更好地开发和管理Spark应用程序,并在大数据领域中取得更好的成果。 ### 回答3: 作为目前最流行的大数据处理框架之一,Spark已经成为了大家谈论的热点话题。如果你想要学习关于Spark的知识,以下是你必须知道的Spark知识点。 1. RDD:RDD是Spark中最基本的抽象概念,全称是Resilient Distributed Datasets。RDD是一个容错的、可并行计算的数据集合。在Spark中,所有数据都是以RDD的形式出现的。RDD具有不变性,也就是说,RDD一旦被创建,就不可更改。如果需要对RDD进行操作,就需要创建一个新的RDD。 2. 迭代器(Iterator): Spark中的迭代器是一种延迟执行的方式。它允许 Spark 延迟计算,只有到调用 action 操作时才会真正开始计算数据。 3. 数据分区(Data Partitioning):数据分区可以更好的支持并行计算,让计算机更加高效的工作。Spark将数据分解成小块,每块专门分派给一个处理器来处理。分区的数量应该与处理器的数量相同,以充分利用每个处理器。 4. Shuffle:Shuffle是将数据重新分配和重新组合的过程,在Spark中用于在不同的节点之间传递数据。在数据分组、排序、变换等操作时,会频繁的使用shuffle操作。 5. 宽依赖和窄依赖(Wide and Narrow Dependencies):依赖是Spark RDD中的概念,表示与当前RDD对应的其它RDD。一个RDD可能依赖于多个RDD,此时依赖关系称为宽依赖(Wide Dependencies)。如果一个RDD依赖于一个RDD,那么这个依赖关系被称为窄依赖(Narrow Dependencies)。 6. Spark SQL:Spark SQL是一个新的模块,提供了使用结构化数据的一个新的方式。它将Spark的强大的处理引擎与表格数据结构相结合,使得Spark可以更容易地与现有的商业智能工具和数据仓库互操作。 7. Spark Streaming:Spark Streaming是Spark提供的流处理引擎,可以处理实时数据流。Spark Streaming对于数据挖掘,实时监控等有很好的应用场景。 以上就是您需要了解的一些Spark基础知识,当然,Spark这门技术还有很多精妙的理念和玩法,需要您自行探究。如果您想要学习Spark,可以参考Spark文档,同时多动手练习,不断总结经验,培养能独立解决问题的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一朝英雄拔剑起

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值