前言
在实时计算作业中,往往需要动态改变一些配置,举几个栗子:
- 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析;
- 实时NLP服务,需要及时识别新添加的领域词与停用词;
- 实时风控服务,需要根据业务情况调整触发警告的规则。
那么问题来了:配置每次变化都得手动修改代码,再重启作业吗?答案显然是否定的,毕竟实时任务的终极目标就是7 x 24无间断运行。Spark Streaming和Flink的广播机制都能做到这点,本文分别来简单说明一下。
Spark Streaming的场合
很久之前我在这里详细分析了Spark Core内部的广播机制。但广播变量(broadcast variable)的设计初衷是简单地作为只读缓存,在Driver与Executor间共享数据,Spark文档中的原话如下:
Broadcast variables allow the programmer to keep a read-only variable cached on each machine rather than shipping a copy of it with tasks. They can be used, for example, to give every node a copy of a large input dataset in an efficient manner.
也就是说原生并未支持广播变量的更新,所以我们得自己稍微hack一下。直接贴代码吧。