【spark】开发过程中遇到的问题

郝少

已于 2022-08-24 13:34:42 修改

阅读量235

点赞数

分类专栏： Spark技术经验文章标签：开发语言 spark

于 2022-08-24 11:49:32 首次发布

本文链接：https://blog.csdn.net/hyj_king/article/details/126380599

版权

Spark技术经验专栏收录该内容

72 篇文章 6 订阅

订阅专栏

博客内容讲述了在处理大数据集时，如何通过优化代码结构解决Redis批量写入过程中的序列化问题。错误出现在将获取Jedis客户端的操作置于foreachPartition外部，导致资源管理不当。正确做法是将Jedis实例化和关闭操作放入foreachPartition内部，确保每个分区都有独立的Jedis实例，从而避免并发问题。同时，使用pipeline提高效率。

摘要由CSDN通过智能技术生成

一、批量写入redis

1、问题描述

提取dataset固定字段写入redis,使用pipeline方式，最初一直报redis序列化问题。经排查是将获取jedis的操作放在了foreachPartition外面了，导致获取jedis在外部，使用在内部，故报这个错。

2、错误代码

       //推送redis端
        val jedis = RedisUtils.getJedisClient(redisHost, redisPort)
        //redis密码
        jedis.auth(redisPwd)
        val pipeline: Pipeline = jedis.pipelined()
        pipeline.select(redisIndex)
        ds_redis.foreachPartition(row => {
        val map = new util.HashMap[String, String]()
        row.foreach(line => {
          val url_domain: String = line.getAs[String]("url_domain")
          map.clear()
          map.put("taskId",taskId)
          map.put("userId",userId)
          map.put("url",url_domain)
          pipeline.xadd(redisStreamKey,StreamEntryID.NEW_ENTRY,map)
        })
        pipeline.sync()
        pipeline.close()

3、正确操作

        ds_redis.foreachPartition(row => {
        //推送redis端
        val jedis = RedisUtils.getJedisClient(redisHost, redisPort)
        //redis密码
        jedis.auth(redisPwd)
        val pipeline: Pipeline = jedis.pipelined()
        pipeline.select(redisIndex)
        val map = new util.HashMap[String, String]()
        row.foreach(line => {
          val url_domain: String = line.getAs[String]("url_domain")
          map.clear()
          map.put("taskId",taskId)
          map.put("userId",userId)
          map.put("url",url_domain)
          pipeline.xadd(redisStreamKey,StreamEntryID.NEW_ENTRY,map)
        })
        pipeline.sync()
        pipeline.close()