前言
在大数据中,我们通常追求的是最终一致性。其主要发生于实时数仓当中。在实时数仓中,数据以流的方式一直传过来,而对于数据计算的方面,则具有两种方式——流处理和批处理。
而在真正计算时,通常采用流批一体的处理方式。流批一体指的是’'对一批数据进行整体处理",同时结合了批处理和流处理的优点,实现了实时和批量数据处理的统一。
批处理
在批处理中,通常以记录(事件)数作为边界。
讲解:从某一个事件开始进行计数,达到指定数量(阈值)时,就会将它们进行计算。
缺陷:时效性很难保障。【在实时数仓中,通常不采纳的】
无法保证时效性说明:事件与事件之间通常会有一定的延迟。
若前一个事件是在1小时前到来的,而后一个事件则是在10小时后才到来,此时就很难保证时效性,无法进行【实时】。
流处理
在流处理中,通常以水平线来标记窗口的边界。
专有名词
水位线(water marker):时间
窗口:固定的时间间隔,通常为3s(3000ms)
过程讲解
以第一个事件(事件本身通常带有时间)进来作为开始的水平线,当达到窗口边界,即结束的水平线时,就会将窗口内的事件进行计算。
常见的问题
场景
在流处理过程中,我们通常会遇到这一问题:一个事件本身就属于窗口A,但来的时候产生了延迟,事件的一部分超出了窗口的范围。此时,我们通常有两种做法。
方法一:允许一定的延迟
当出现上述情况时,我们可以采用延迟2s左右,来将事件包含在内。
注意:窗口依旧是3s,但计算的周期变为了5s。
方法二:侧输出流
当出现上述情况时,我们可以采用侧输出流的方式。
讲解:可以另外开一个管道,将数据向下游走,进入分钟窗口,甚至小时窗口。
注意:秒级窗口和分钟窗口,小时窗口是互相分层,无影响。