关于spark structed stream 流中的触发trigger间隔的理解

lixia0417mul2

已于 2022-03-10 01:26:42 修改

阅读量1k

点赞数 1

分类专栏：大数据文章标签： java 开发语言后端

于 2022-03-02 21:11:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lixia0417mul2/article/details/123240412

版权

大数据专栏收录该内容

73 篇文章 1 订阅

订阅专栏

这里的讨论先把continue stream这种场景排除掉，只讨论常规的spark的微批量场景，

如果不执行trigger触发器的时候，spark是尽可能快的分批处理数据，但是多快说不好，
一般是100ms以上，所以这里几乎可以理解成差不多100ms一个微批
显式的指定触发间隔，Trigger.ProcessingTime(“2 seconds”)，这里每个批次就是2s一批数据

关于kafka或者file作为输入源时的maxOffsetPerTrigger和maxFilePerTrigger参数的理解：
相当于每次触发一个微批的数据里面最多包含maxOffset或者N个文件里面的数据量，这个和trigger的触发间隔没有任何关系

关于output model输出模式的理解：输出模式会反过来影响数据输出的方式(拿带窗口时间的聚合作为例子)，比如：如果是Append输出模式的话，
数据会一直等到wartermark时间时候才输出数据，这样数据就固定了，超过wartermark的时间来的数据就直接丢弃了。
但是如果是update输出模式的话，每次触发时间同一个key会变，不会一直等到wartermark之后
才输出一次结果，而是从出现到wartermark期间，每次触发都更新对应key的value并输出

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于spark structed stream 流中的触发trigger间隔的理解

这里的讨论先把continue stream这种场景排除掉，只讨论常规的spark的微批量场景，如果不执行trigger触发器的时候，spark是尽可能快的分批处理数据，但是多快说不好，一般是100ms以上，所以这里几乎可以理解成差不多100ms一个微批显式的指定触发间隔，Trigger.ProcessingTime(“2 seconds”)，这里每个批次就是2s一批数据关于kafka或者file作为输入源时的maxOffsetPerTrigger和maxFilePerTrigger参数的理解：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。