Spark Streaming的Event Time和WaterMark理解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lxhandlbb/article/details/80372852

EventTime即事件真正生成的时间。

例如一个用户在10:06点击 了一个按钮。记录在系统中为10:06。

这条数据发送到Kafka,又到了Spark Streaming中处理,已经是10:08了。这个处理的时间就是process Time。


Water Mark即 这个时间点之前的数据都到达了。

例如现在是10:20 ,但是water Mark是 10:10 分,那么认为,10:10之前的数据都已经到达了。 


这个时候,再来一条10:06 的数据,则直接丢弃 了。

但如果来的是10:16的数据,则可以被正确处理。因为10:16 在water mark后面。

展开阅读全文

没有更多推荐了,返回首页