谈谈Spark Streaming流任务在不重启的情况下热加载文件

最近工作中遇到这样一个问题,在Spark Streaming流任务在不重启的情况下热加载文件。由于这个文件比较特殊,他是一个对象一个特征提取所用的idfModel,这里我们训练这个model单独起了一个Spark批任务,训练完成后以Object的类型写入hdfs。

但是这个model需要每天刷新一次。在第一次启动流任务时会把model加载进流任务里,但第二天在流不重启的情况下要把更新的model加载进来。就需要借助第三方来做这样一件事,现在使用的方式是在redis记录时间戳的方式实现。

下面说下具体实现方案,首先在批任务训练完model写入hdfs后,把此时时间戳记录下来写入redis。然后流任务加载model时的时间戳也写入redis,因为流任务是后面起来的任务所以当前时间戳一定大于批任务写入的时间戳。

我们在流任务中每个批次里,在使用model之前,做一个校验的工作,就是把两个时间戳取出来如果批任务写入的时间戳大于流任务加载model的时间戳,就读取hdfs问价获取model对象,然后再在redis里更新下流任务加载model的时间戳,这样以来就实现了热加载的功能。

目前此功能已经上线没有任何问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值