《Spark Streaming 编程指南 之foreachRDD设计模式》

foreachRDD 设计模式

dstream.foreachRDD是一个强大的元语,它允许将数据发送到外部系统。所以理解如何正确、高效的使用这个元语非常重要。下面是一些常见的错误使用方法。

通常情况下,写出数据到外部系统需要创建一个connection对象(例如 远程服务的TCP connection),并使用这个connection发送数据到远程系统。为达到这个目的,开发人员可能会无意中在Spark driver端创建一个connection 对象,并尝试在worker端使用它来保存数据到RDD。例如:

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // 在driver 端执行
  rdd.foreach { record =>
    connection.send(record) // 在 worker 端执行
  }
}

这种使用方式是错误的,因为这种写法的connection需要先序列化再发送到worker端。这样的connection几乎是不能在机器间传输的。这种错误会导致序列化错误(connection对象未序列化),初始化错误(connection对象需要在work端实例化)等等。正确的做法是在worker端创建connection。

然而这又会导致另一个常见的错误 - 每条记录都要创建一个新的connection.例如:

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

一般来说,创建一个connection对象会有时间和资源负担。因此,为每一条记录都创建和销毁一个connection会产生不必要的高额负担,并会显著减少系统的吞吐量。更好的方式是使用 rdd.foreachPartition - 为每一个RDD分区创建一个connection,这样,一个分区内的数据会共用一个connection.

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

这样,创建connection的开销会被很多记录分摊。

最后,通过在多个RDD/批次之间复用connection对象可以对这个操作进行进一步的优化 - 维护一个静态的连接池

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    // ConnectionPool is a static, lazily initialized pool of connections
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }
}

请注意,连接池中的链接connection需要是懒加载的 - 需要时创建,空闲时回收。这样才能达到最高效率。

其他注意事项:

  • 在输出操作中,DStream 是懒执行的,就像action操作中的RDD 是懒执行的一样。并且,Dstream输出操作中的RDD action操作会强制处理接收到的数据,因此,如果你的程序没有任何输出操作,或者有dstream.foreachRDD(),但foreachRDD内部没有任何RDD action动作,那么什么都不会执行,系统只会简单的接收数据,并忽略掉。
  • 默认情况下,输出操作一次执行一个,并且是按在程序中定义的顺序执行的。

注:转载请注明出处。

原文:http://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值