《Spark Streaming 编程指南之foreachRDD设计模式》

最新推荐文章于 2022-02-15 19:23:14 发布

Mathieu66

最新推荐文章于 2022-02-15 19:23:14 发布

阅读量321

点赞数

分类专栏： Apache Spark 文章标签： spark streaming foreachRDD

Apache Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

foreachRDD 设计模式

dstream.foreachRDD是一个强大的元语，它允许将数据发送到外部系统。所以理解如何正确、高效的使用这个元语非常重要。下面是一些常见的错误使用方法。

通常情况下，写出数据到外部系统需要创建一个connection对象（例如远程服务的TCP connection），并使用这个connection发送数据到远程系统。为达到这个目的，开发人员可能会无意中在Spark driver端创建一个connection 对象，并尝试在worker端使用它来保存数据到RDD。例如：

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // 在driver 端执行
  rdd.foreach { record =>
    connection.send(record) // 在 worker 端执行
  }
}

这种使用方式是错误的，因为这种写法的connection需要先序列化再发送到worker端。这样的connection几乎是不能在机器间传输的。这种错误会导致序列化错误（connection对象未序列化），初始化错误（connection对象需要在work端实例化）等等。正确的做法是在worker端创建connection。

然而这又会导致另一个常见的错误 - 每条记录都要创建一个新的connection.例如：

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

一般来说，创建一个connection对象会有时间和资源负担。因此，为每一条记录都创建和销毁一个connection会产生不必要的高额负担，并会显著减少系统的吞吐量。更好的方式是使用 rdd.foreachPartition - 为每一个RDD分区创建一个connection，这样，一个分区内的数据会共用一个connection.

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

这样，创建connection的开销会被很多记录分摊。

最后，通过在多个RDD/批次之间复用connection对象可以对这个操作进行进一步的优化 - 维护一个静态的连接池

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    // ConnectionPool is a static, lazily initialized pool of connections
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }
}

请注意，连接池中的链接connection需要是懒加载的 - 需要时创建，空闲时回收。这样才能达到最高效率。

其他注意事项：

在输出操作中，DStream 是懒执行的，就像action操作中的RDD 是懒执行的一样。并且，Dstream输出操作中的RDD action操作会强制处理接收到的数据，因此，如果你的程序没有任何输出操作，或者有dstream.foreachRDD()，但foreachRDD内部没有任何RDD action动作，那么什么都不会执行，系统只会简单的接收数据，并忽略掉。
默认情况下，输出操作一次执行一个，并且是按在程序中定义的顺序执行的。

注：转载请注明出处。

原文：http://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd

Mathieu66

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Spark Streaming 编程指南之foreachRDD设计模式》

foreachRDD 设计模式dstream.foreachRDD是一个强大的元语，它允许将数据发送到外部系统。所以理解如何正确、高效的使用这个元语非常重要。下面是一些常见的错误使用方法。通常情况下，写出数据到外部系统需要创建一个connection对象（例如远程服务的TCP connection），并使用这个connection发送数据到远程系统。为达到这个目的，开发人员可能会无意中在...
复制链接

扫一扫