Spark+RedisPool

在实时项目中,使用Kafka+Spark Streaming处理数据并将其存储到Redis时,遇到Redis连接池序列化问题。通过参考文章解决了序列化问题,但发现配置文件无法动态设置Redis hosts和port。为解决这个问题,尝试了在DStream输出操作内管理Redis连接,以确保在Executor中初始化。然而,每次`foreachPartition`操作仍会创建新的RedisPool,导致需要手动关闭连接以防止连接数过多。寻求优化解决方案。
摘要由CSDN通过智能技术生成

    一个实时项目需要用到Kafka+Spark streaming+Redis,在spark streaming中将计算结果实时存入redis,由于是分布式计算,创建redis pool的时候出现无法序列化的问题,借鉴了以下博文:http://shiyanjun.cn/archives/1097.html,解决了无法序列化的问题,但是方法一(即使用lazy懒加载的机制)中,redis的的配置(hosts和port)只能写死,试了n种方法都不能将这些配置写进配置文件里,最后只能采取第二种方法把对Redis连接的管理放在操作DStream的Output操作范围之内,因为我们知道它是在特定的Executor中进行初始化的,使用一个单例的对象来管理。

但是还是有问题:每次forecachpartition操作时,都会

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值