Spark流式状态管理（updateStateByKey）

最新推荐文章于 2024-05-06 17:22:12 发布

大数据学习与分享

最新推荐文章于 2024-05-06 17:22:12 发布

阅读量680

点赞数

分类专栏： Spark 大数据文章标签： Spark实时 Spark流状态管理大数据实时处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42164977/article/details/108615088

版权

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果我们要跨批次做一些数据统计，比如batch是3秒，但要统计每1分钟的用户行为，那么就要在整个流式链条中维护一个状态来保存近1分钟的用户行为。那么如果维护这样一个状态呢？一般情况下，主要通过以下几种方式：spark内置算子：updateStateByKey、mapWithState

摘要由CSDN通过智能技术生成

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。

但如果我们要跨批次做一些数据统计，比如batch是3秒，但要统计每1分钟的用户行为，那么就要在整个流式链条中维护一个状态来保存近1分钟的用户行为。

那么如果维护这样一个状态呢？一般情况下，主要通过以下几种方式：

spark内置算子：updateStateByKey、mapWithState
第三方存储系统维护状态：如redis、alluxio、HBase

本篇主要以spark内置算子：updateStateByKey通过一些示例代码（不涉及offset管理），来看看如何进行状态维护。（下篇文章会介绍mapWithState）

updateStateByKey

分析相关源码发现，这个算子的核心思想就是将之前有状态的RDD和当前的RDD做一次cogroup，得到一个新的状态的RDD，具有如下特点：

可以设置初始状态
key超时删除。用updatefunc返回None值。updateFunc不管是否有已保存状态key的新数据到来，都会被已存在状态的key调用，新增的key也会调用
不适合大数据量状态存储，尤其是key的维度比较高、value状态比较大的

object StateOperator {

  private val brokers = "kafka-1:

最低0.47元/天解锁文章

大数据学习与分享

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark流式状态管理（updateStateByKey）

通常使用Spark的流式框架如Spark Streaming，做无状态的流式计算是非常方便的，仅需处理每个批次时间间隔内的数据即可，不需要关注之前的数据，这是建立在业务需求对批次之间的数据没有联系的基础之上的。但如果我们要跨批次做一些数据统计，比如batch是3秒，但要统计每1分钟的用户行为，那么就要在整个流式链条中维护一个状态来保存近1分钟的用户行为。那么如果维护这样一个状态呢？一般情况下，主要通过以下几种方式：spark内置算子：updateStateByKey、mapWithState
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。