foreachRDD 设计模式
dstream.foreachRDD是一个强大的元语,它允许将数据发送到外部系统。所以理解如何正确、高效的使用这个元语非常重要。下面是一些常见的错误使用方法。
通常情况下,写出数据到外部系统需要创建一个connection对象(例如 远程服务的TCP connection),并使用这个connection发送数据到远程系统。为达到这个目的,开发人员可能会无意中在Spark driver端创建一个connection 对象,并尝试在worker端使用它来保存数据到RDD。例如:
dstream.foreachRDD { rdd =>
val connection = createNewConnection() // 在driver 端执行
rdd.foreach { record =>
connection.send(record) // 在 worker 端执行
}
}
这种使用方式是错误的,因为这种写法的connection需要先序列化再发送到worker端。这样的connection几乎是不能在机器间传输的。这种错误会导致序列化错误(connection对象未序列化),初始化错误(connection对象需要在work端实例化)等等。正确的做法是在worker端创建connection。
然而这又会导致另一个常见的错误 - 每条记录都要创建一个新的connection.例如:
dstream.foreachRDD { rdd =>
rdd.foreach { record =>
val connection = createNewConnection()
connection.send(record)
connection.close()
}
}
一般来说,创建一个connection对象会有时间和资源负担。因此,为每一条记录都创建和销毁一个connection会产生不必要的高额负担,并会显著减少系统的吞吐量。更好的方式是使用 rdd.foreachPartition - 为每一个RDD分区创建一个connection,这样,一个分区内的数据会共用一个connection.
dstream.foreachRDD { rdd =>
rdd.foreachPartition { partitionOfRecords =>
val connection = createNewConnection()
partitionOfRecords.foreach(record => connection.send(record))
connection.close()
}
}
这样,创建connection的开销会被很多记录分摊。
最后,通过在多个RDD/批次之间复用connection对象可以对这个操作进行进一步的优化 - 维护一个静态的连接池
dstream.foreachRDD { rdd =>
rdd.foreachPartition { partitionOfRecords =>
// ConnectionPool is a static, lazily initialized pool of connections
val connection = ConnectionPool.getConnection()
partitionOfRecords.foreach(record => connection.send(record))
ConnectionPool.returnConnection(connection) // return to the pool for future reuse
}
}
请注意,连接池中的链接connection需要是懒加载的 - 需要时创建,空闲时回收。这样才能达到最高效率。
其他注意事项:
- 在输出操作中,DStream 是懒执行的,就像action操作中的RDD 是懒执行的一样。并且,Dstream输出操作中的RDD action操作会强制处理接收到的数据,因此,如果你的程序没有任何输出操作,或者有dstream.foreachRDD(),但foreachRDD内部没有任何RDD action动作,那么什么都不会执行,系统只会简单的接收数据,并忽略掉。
- 默认情况下,输出操作一次执行一个,并且是按在程序中定义的顺序执行的。
注:转载请注明出处。