流处理(stream)与批处理(batch)讲解

前言

在大数据中,我们通常追求的是最终一致性。其主要发生于实时数仓当中。在实时数仓中,数据以流的方式一直传过来,而对于数据计算的方面,则具有两种方式——流处理批处理

而在真正计算时,通常采用流批一体的处理方式。流批一体指的是’'对一批数据进行整体处理",同时结合了批处理和流处理的优点,实现了实时和批量数据处理的统一。

批处理

在批处理中,通常以记录(事件)数作为边界

讲解:从某一个事件开始进行计数,达到指定数量(阈值)时,就会将它们进行计算。

缺陷:时效性很难保障。【在实时数仓中,通常不采纳的】

无法保证时效性说明:事件与事件之间通常会有一定的延迟。
若前一个事件是在1小时前到来的,而后一个事件则是在10小时后才到来,此时就很难保证时效性,无法进行【实时】。

批处理

流处理

在流处理中,通常以水平线来标记窗口的边界

专有名词

水位线(watermark):时间
窗口:固定的时间间隔,通常为3s(3000ms)

过程讲解

以第一个事件(事件本身通常带有时间)进来作为开始的水平线,当达到窗口边界,即结束的水平线时,就会将窗口内的事件进行计算。

流处理

常见的问题

场景

在流处理过程中,我们通常会遇到这一问题:一个事件本身就属于窗口A,但来的时候产生了延迟,事件的一部分超出了窗口的范围。此时,我们通常有两种做法。

方法一:允许一定的延迟

当出现上述情况时,我们可以采用延迟2s左右,来将事件包含在内

注意:窗口依旧是3s,但计算的周期变为了5s。

一定延迟

方法二:侧输出流

当出现上述情况时,我们可以采用侧输出流的方式

讲解:可以另外开一个管道,将数据向下游走,进入分钟窗口,甚至小时窗口。

注意:秒级窗口和分钟窗口,小时窗口是互相分层,无影响。

侧输出流

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值