sparkStreaming 连接数据库 --设计模式

最新推荐文章于 2024-04-23 08:18:31 发布

_SuperDean_

最新推荐文章于 2024-04-23 08:18:31 发布

阅读量2.5k

点赞数 2

分类专栏： spark 文章标签： spark streaming 设计模式连接数据库

本文链接：https://blog.csdn.net/Dean_WangHW/article/details/53612945

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

当我们遇到需要用sparkStreaming来保存处理的数据时，自然会想到用ojdbc.但是当我们真正去实现她的时候会发现，用spark Streaming来处理数据库连接是一件有点麻烦的事情，下面是针对spark-streaming_2.11来处理的。
destream.foreachrdd是一个强大的可以将数据发送到外部系统的方法。然而，在使用她的时候我们常常会犯一些无法理解的错误。

错误一：

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // executed at the driver
  rdd.foreach { record =>
    connection.send(record) // executed at the worker
  }
}

这种写法是不正确的，如果这样写，连接对象会被序列化到worker里，这样就不能连接数据库了。

错误二：

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

这种情况会导致另一种问题。会为每一个记录都创建一个新的连接，如果一次处理的数据过多就会创建很多数据库连接，这样就造成了服务器压力过大，资源消耗严重，容易使集群崩溃。

正确连接方式：

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

这种方式是为每一个partition分区分配一个连接，不同的partition拥有不同的连接。

优化版：

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    // ConnectionPool is a static, lazily initialized pool of connections
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }
}

这种需要创建一个数据库连接池，每次需要使用数据库连接的时候都会先从数据库连接池中获取数据库连接。这是一种lazily的模式。节省程序创建数据库连接的开销。

_SuperDean_

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
sparkStreaming 连接数据库 --设计模式

当我们遇到需要用sparkStreaming来保存处理的数据时，自然会想到用ojdbc.但是当我们真正去实现她的时候会发现，用spark Streaming来处理数据库连接是一件有点麻烦的事情，下面是针对spark-streaming_2.11来处理的。 destream.foreachrdd是一个强大的可以将数据发送到外部系统的方法。然而，在使用她的时候我们常常会犯一些无法理解的错误。错误一：d
复制链接

扫一扫