spark-streaming之window窗口理解

最新推荐文章于 2022-09-05 15:13:28 发布

cclovezbf

最新推荐文章于 2022-09-05 15:13:28 发布

阅读量739

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cclovezbf/article/details/101633937

版权

val ssc: StreamingContext = new  StreamingContext(conf,Seconds(5))  // //batchdurat

xxx.window(Minutes(60),Seconds(10)) // windowduration slideduration默认=batchduration

要理解spark-streaming 窗口要理解上面的三个时间单位

second(5)是指spark将流式数据划分为几秒一个批次，我这里是5s

minutes(60)是指开窗的长度是60min，其中这个窗口的开始点是你程序开始运行或者说spark接收到数据那一秒开始算

seconds(10)是指滑动步长

主要说下batchduration windowduration

个人理解如果batchduration=windowduration =60min 那么处理的数据是每个小时处理一个小时的数据

例如2:00处理1:00-2:00的数据，3:00的2:00-3:00的数据

当然这个是不现实的，因为spark-streaming处理的是实时数据按道理batchduration这个值越小就越接近实时，这个例子只是为了让你更好理解，

如果batchduration=windowduration =5s 那么窗口也只开了5s的窗口也不符合实际要求

最后解释下我上述代码的代表意义

每5秒处理一下流式数据(无延迟情况下)

1:00:00程序启动

1:00:05的时候处理了1:00:00-1:00:05的数据(聚合map filter),

1:00:10的时候处理了1:00:05-1:00:10的数据(聚合map filter),

然后把1:00:05和1:00:10两次处理的结果再计算

最后输出结果

然后过10s输出结果，直到2：00 输出1:00:00-2:00:00的结果，

但是2:00:00以后都只输出一个小时以内的计算结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-streaming之window窗口理解

val ssc: StreamingContext = new StreamingContext(conf,Seconds(5)) // //batchduratxxx.window(Minutes(60),Seconds(10)) // windowduration slideduration默认=batchduration要理解spark-streaming 窗口要理解上面的三...
复制链接

扫一扫

cclovezbf CSDN认证博客专家 CSDN认证企业博客

码龄6年

224: 原创

4万+: 周排名

14万+: 总排名

45万+: 访问

: 等级

3588: 积分

175: 粉丝

282: 获赞

108: 评论

879: 收藏

私信

关注

分类专栏

最新评论

hadoop学习之WebHDFS (REST API)
TangAcrab: 用得什么工具看得 ui 哦
bucketId out of range: -1 (state=,code=0)
cclovezbf: 用什么工具同步的？
bucketId out of range: -1 (state=,code=0)
cclovezbf: 而且为啥不建orc ，除非你是直接load的？如果确实要用text 可以设置分隔符@$@ 这连续的三个字段这种总不会有相似的了吧
bucketId out of range: -1 (state=,code=0)
cclovezbf: 很简单啊在oracle建个试图 replace('\n','')这种比如用datax的话直接在column哪里也可以replace
bucketId out of range: -1 (state=,code=0)
6871: 主要建orc不是为了事务，我oracle同步到hive，源表字段中有\n，所以hive中不能用textfile，这个问题目前还没解决，各位大佬有懂的帮帮忙

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。