spark操作Redis

最新推荐文章于 2024-05-16 09:36:58 发布

不加班程序员

最新推荐文章于 2024-05-16 09:36:58 发布

阅读量3.4k

点赞数 1

分类专栏： Hadoop相关 spark redis 文章标签： redis spark 数据库连接池 scala

本文链接：https://blog.csdn.net/SuperBoy_Liang/article/details/123182809

版权

Hadoop相关同时被 3 个专栏收录

37 篇文章

订阅专栏

spark

15 篇文章

订阅专栏

redis

5 篇文章

订阅专栏

需求：需要通过spark对redis里面的数据进行实时读写

实现方案：通过建立连接池，在每台机器上单独建立连接，进行操作

1、利用lazy val的方式进行包装

  class RedisSink(makeJedisPool: () => JedisPool) extends Serializable {
    lazy val pool = makeJedisPool()
  }

  object RedisSink {
    def apply(redisHost: String, redisPort: Int, password: String, database: Int): RedisSink = {
      val createJedisPoolFunc = () => {
        val poolConfig = new GenericObjectPoolConfig()
        val pool = new JedisPool(poolConfig, redisHost, redisPort, Protocol.DEFAULT_TIMEOUT, password, database)
        val hook = new Thread {
          override def run = {
            pool.destroy()
          }
        }
        sys.addShutdownHook(hook.run)
        pool
      }
      new RedisSink(createJedisPoolFunc)
    }
  }

2、使用时，我们利用广播变量的形式，将RedisSink广播到每一个executor

    val redisSink: Broadcast[RedisSink] = {
      sc.broadcast(RedisSink(redisHost, redisPort, redisPassword, redisDatabase))
    }

    val rdd = DataUtils.getKafkaDataSource(ssc, topic, bootstrap, groupId)
    rdd.foreachRDD(recordRDD => {
      if (!recordRDD.isEmpty()) {
        recordRDD.foreachPartition(part => {
          val jedisPool = redisSink.value.pool
          val jedis = jedisPool.getResource
          val pipeline = jedis.pipelined()

          part.foreach(x => {
            val message = x.value()
            val kv = message.split(",")
            val key = kv(0)
            val value = kv(1)
//            jedis.set(key, value)
            pipeline.set(key, value)
          })
          pipeline.sync()
          jedis.close()
        })
      }
    })