Spark Streaming/Flink广播实现作业配置动态更新

最新推荐文章于 2024-05-06 09:51:34 发布

码农老K

最新推荐文章于 2024-05-06 09:51:34 发布

阅读量177

点赞数

文章标签： java 数据库 flink spark android

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvlei19911108/article/details/118270182

版权

前言

在实时计算作业中，往往需要动态改变一些配置，举几个栗子：

实时日志ETL服务，需要在日志的格式、字段发生变化时保证正常解析；
实时NLP服务，需要及时识别新添加的领域词与停用词；
实时风控服务，需要根据业务情况调整触发警告的规则。

那么问题来了：配置每次变化都得手动修改代码，再重启作业吗？答案显然是否定的，毕竟实时任务的终极目标就是7 x 24无间断运行。Spark Streaming和Flink的广播机制都能做到这点，本文分别来简单说明一下。

Spark Streaming的场合

image

很久之前我在这里详细分析了Spark Core内部的广播机制。但广播变量(broadcast variable)的设计初衷是简单地作为只读缓存，在Driver与Executor间共享数据，Spark文档中的原话如下：

Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner.

也就是说原生并未支持广播变量的更新，所以我们得自己稍微hack一下。直接贴代码吧。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码农老K 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。