背景
对流生成的每个RDD应用函数func。这个函数应该将每个RDD中的数据推送到外部系统,例如将RDD保存到文件中,或者通过网络将其写入数据库。请注意,函数func是在运行流应用程序的驱动程序进程中执行的,其中通常会有RDD操作,这将强制流RDDs的计算。
foreacheRDD使用
dstream.foreachRDD { rdd =>
val connection = createNewConnection() // executed at the driver
rdd.foreach { record =>
connection.send(record) // executed at the worker
}
}
注意
因为在Spark driver端创建连接对象,
这样每次连接要序列化发送到work端
不能够跨机器传输,这样会报:初始化错误,连接错误
正确的做法是在work端创建连接
- 如下,但是这样会出现一个问题就是每次记录创建一个新的连接.而创建连接会消耗时间和资源.因此,为每个记录创建和销毁连接对象会导致不必要的高开销,并会显著降低系统的总体吞吐量.
dstream.foreachRDD { rdd =>
rdd.foreach { record =>
val connection = createNewConnection()
connection.send(record)
connection.close()
}
}
- 最优化做法:使用rdd.foreachPartition——创建一个连接对象,并使用该连接发送RDD分区中的所有记录。
dstream.foreachRDD { rdd =>
rdd.foreachPartition { partitionOfRecords =>
val connection = createNewConnection()
partitionOfRecords.foreach(record => connection.send(record))
connection.close()
}
}