TensorFlowOnSpark分析
TensorFlowOnSpark(https://github.com/yahoo/TensorFlowOnSpark)项目是由Yahoo开源的一个软件包,能将TensorFlow(https://github.com/tensorflow/tensorflow)与Spark结合在一起使用,为ApacheHadoop和ApacheSpark集群带来可扩展的深度学习功能。使Spark能够利用TensorFlow拥有深度学习和GPU加速计算的能力。传统情况下处理数据需要跨集群(深度学习集群和Hadoop/Spark集群),Yahoo为了解决跨集群传递数据的问题开发了TensorFlowOnSpark项目。TensorFlowOnSpark目前被用于雅虎私有云中的Hadoop集群,主要进行大规模分布式深度学习使用。
TensorFlowOnSpark在内部实现了与Tensorflow集群类似的可扩展性。在下图中可以看出,SparkDriver端程序并不会参与TensorFlow