DataStream API编程指南之Event Time(九)

在Flink的流式处理中,会涉及到不同的时间概念,如下图所示:
在这里插入图片描述
在上图中,有一个Event产生器,从日志生成的角度来看, 若是我们通过手机打开了一个今日头条的消息,此时会产生一条与用户相关的日志信息,如什么时间,谁做了什么事情。描述了时间产生的真实时间。当数据经过kafka等消息队列之后,到达Flink的DataSource,此时又到了一个新的时间(Ingestion Time,摄入时间,也就是进入Flink的时间)。而最后对数据进行处理的时候,时间(Window Processing Time)又发生了变化。

对于Flink里面的三种时间:

  • Event Time - 事件时间:10:30
  • Ingestion Time - 摄取时间:11:00
  • Processing Time - 处理时间:11:30

思考:对于流处理来说,以哪个时间作为基准时间来进行业务逻辑的处理呢?

Flink在流处理程序中支持三种不同的时间概念,下面分别介绍一下每种时间:

Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。

Ingestion Time:是数据进入Flink的时间。

Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。

1、Event Time - 事件时间

事件时间是指每个事件在其生产设备上发生的时间。这个时间通常是内置在记录中的,在到达Flink之前就已经存在,并且事件时间戳可以从每个记录中提取出来。在事件时间中,时间的进展取决于数据,而不依赖于系统时间。基于事件时间的程序必须指定如何生成事件时间水印,在事件时间中发出进展信号的机制。这种水印机制将在下面的一节中进行描述。

在完美的世界中,事件时间处理将产生完全一致和确定性的结果,无论事件何时到达或它们的顺序如何。但是,除非已知事件按顺序(按时间戳)到达,否则在等待无序事件时,事件时间处理会导致一些延迟。由于只能等待有限的时间,这就限制了事件时间应用程序的确定性。

假设所有的数据都已经到达了,事件时间操作将会像按照预期执行,并产生正确且一致的结果,而不管数据是无序的还是延时的,或者是重新处理的历史数据。例如,每小时的事件时间窗口将包含该小时内的事件时间戳的所有记录,而不考虑它们到达的顺序或处理它们的时间。

请注意:有时,在事件时间程序处理实时数据时,会使用一些处理时间(Processing Time)的操作,以确保能及时处理。

在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime

2、Ingestion Time - 摄取时间

摄入时间是事件进入Flink的时间。是每一个执行基于时间操作的算子的本地系统时间,与机器相关,并且基于时间的操作(如,时间窗口)就是引用该时间戳。

Ingestion time发生在event time 和 processing time之间。

和processing time相比,Ingestion time稍微昂贵一些,但是,相对来说也会提供更可预测的结果。因为Ingestion time使用稳定的时间戳(在source处分配一次),对于这些数据的不同窗口操作将引用相同的时间戳,然而在processing time中,每个窗口操作符可能会将记录分配到不同的窗口(基于本地系统时钟和任何传输延迟)。

和Event Time相比,基于Ingestion time的程序不能够处理无序的事件或者延迟数据,但是程序不需要指定如何生成水位线。

在内部,Ingestion time的处理方式与Event Time非常相似,但是Ingestion time能够自动时间戳和自动生成水位线。

3、Processing Time - 处理时间

处理时间是指执行相应操作的机器上的系统时间。

当流程序采用处理时间运行时,所有基于时间的操作(如时间窗口)将使用系统的时间去运行相关操作。每小时处理的时间窗口将包括在系统时钟指示完整小时之间到达特定操作符 的所有记录。例如,如果一个应用程序在上午9:15开始运行,那么第一个每小时处理时间窗口将包括上午9:15到10:00之间处理的事件,下一个窗口将包括上午10:00到11:00之间处理的事件,依此类推。

处理时间是最简单的时间概念,这种时间并不需要流和机器之间进行协调。能够提供最好的性能和最低的延迟。但是,在分布式和异步环境中,处理时间并不能够提供准确机制,因为这种方式受记录到达系统时间的影响很大。例如,9:15到达的记录可能发生的时间在8:50。

4、设置时间特性

Flink DataStream程序的第一部分通常是设置基本的时间特性。该设置定义了数据流源的行为(例如,它们是否将分配时间戳),以及像KeyedStream.timeWindow(time - seconds(30))这样的窗口操作应该使用什么时间概念。

下面的示例显示了按小时聚合事件的Flink程序。窗口的行为与时间特性相适应。

val env = StreamExecutionEnvironment.getExecutionEnvironment

env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime)

5、Event Time and Watermarks

待补充…

6、并行流中的水位线

7、末元素

8、闲置资源

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值