TensorflowOnSpark 介绍与搭建

1.介绍

TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 、Apache Hadoop 的显着特征,TensorFlowOnSpark 能够在 GPU 和 CPU 服务器集群上实现分布式深度学习。

2.为了满足什么应用场景

为了利用TensorFlow在现有的Spark和Hadoop集群上进行深度学习。而不需要为深度学习设置单独的集群。

3.核心技术点是那些
轻松迁移所有现有的TensorFlow程序,<10行代码更改;
支持所有TensorFlow功能:同步/异步训练,模型/数据并行,推理和TensorBoard;
服务器到服务器的直接通信在可用时实现更快的学习;
允许数据集在HDFS和由Spark推动的其他来源或由TensorFlow拖动;
轻松集成您现有的数据处理流水线和机器学习算法(例如,MLlib,CaffeOnSpark);
轻松部署在云或内部部署:CPU和GPU,以太网和Infiniband。

4.同类对比

相比于基于caffe的caffeOnSpark,基于TensorFlow的TensorFlowOnSpark支持更多的模型。

5.优势劣势

优势:TensorFlowOnSpark是基于google的TensorFlow的实现,而TensorFlow有着一套完善的教程,内容丰富。
劣势:开源时间不长,未得到充分的验证。

6.发展前景

由于使用TensorFlow的人数较多,当需要在Spark或Hdfs上进行深度学习时,也会更倾向于使用TensorFlowOnSpark。前景应该不错。

7.搭建
官方示例太坑了。很难搭建成功。主要说一些遇到的问题

下载git clone git@github.com:yahoo/tensorflow.git
实现官方示例
1、安装python2.7,
–安装pip –安装pydoop库 (在hadoop上使用python)–安装numpy库 –安装TensorFlow库
问题:1.pip pydoop安装不上,没有安装hadoop,安装hadoop仍安装不上,可通过下载对应的包通过setup安装
2.pip TensorFlow安装不上 ,pip过程中会检查numpy库是否安装,由于numpy问题造成的失败可以先通过pip 安装numpy
3.import tensorflow出现glibc等版本错误,建议使用新点的系统,centenos6 只支持到glibc1.2,即使安装好了,也可能会出现GLIBC.XXX之类的错误。
4.安装pip错误,安装python过程缺少相关依赖的库(如zlib等),安装过程会有提示。安装完成即可

2、安装和编译TensorFlow w/RDMA支持            (后面链接为参考链接)

     --安装protoc 3.1  (https://github.com/google/protobuf/releases)
    --1下载对应的包(java)
    --2 安装 ./autogen.sh  ./configure --prefix=/usr/local/protobuf  make make check make install ldconfig  (http://www.itdadao.com/articles/c15a1006495p0.html)
     --编译TensorFlow的protos  (https://github.com/tensorflow/ecosystem/tree/master/hadoop)
    --protoc --proto_path=/opt/TensorFlowOnSpark/tensorflow/ --java_out=src/main/java/ /opt/TensorFlowOnSpark/tensorflow/tensorflow/core/example/{example,feature}.proto  (ecosystem/hadoop/ 下执行)
    --mvn clean package      mvn install
    --hadoop fs -put tensorflow-hadoop-1.0-SNAPSHOT.jar

执行命令运行

${SPARK_HOME}/bin/spark-submit --master yarn-cluster --deploy-mode cluster --queue ${QUEUE} --num-executors 4 --executor-memory 1G --archives hdfs:///user/${USER}/Python.zip#Python,/root/mnist/mnist.zip#mnist TensorFlowOnSpark-master/examples/mnist/mnist_data_setup.py --output mnist/csv --format csv
(http://www.jianshu.com/p/72cb5816a0f7)
  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
以下是BigDL、TensorFlowOnSpark、Hopsworks、DeepLearning4J的优缺点: 1. BigDL: 优点: - 基于Spark,支持分布式计算,具有很好的扩展性。 - 支持Scala和Python编程语言,可以满足不同人员的需求。 - 可以直接使用已有的Spark集群进行模型训练和部署,无需额外的硬件投入。 - 支持多种深度学习框架,如Caffe、TensorFlow等,方便用户进行转换和迁移。 缺点: - 由于基于Spark,因此对于小数据集的训练,其性能可能不如其他单机框架。 - 与其他深度学习框架相比,BigDL的生态系统相对较小。 2. TensorFlowOnSpark: 优点: - 基于TensorFlow,具有良好的可移植性和扩展性。 - 支持Python和Scala编程语言,可以满足不同人员的需求。 - 可以直接使用已有的Hadoop集群进行模型训练和部署,无需额外的硬件投入。 - 支持TensorFlow的所有功能和特性,如数据并行、模型并行等。 缺点: - 对于小数据集的训练,其性能可能不如其他单机框架。 - 与其他深度学习框架相比,TensorFlowOnSpark的生态系统相对较小。 3. Hopsworks: 优点: - 基于Hadoop和Spark,具有很好的扩展性和可靠性。 - 支持Python和Scala编程语言,可以满足不同人员的需求。 - 提供了完整的深度学习生态系统,包括数据管理、模型训练、模型部署等功能。 - 支持多种深度学习框架,如TensorFlow、PyTorch、Keras等。 缺点: - 与其他深度学习框架相比,Hopsworks的生态系统相对较小。 - 需要额外的硬件投入,如Hadoop集群和GPU服务器。 4. DeepLearning4J: 优点: - 基于Java语言,可以与现有的Java应用程序无缝集成。 - 支持分布式计算,具有很好的扩展性。 - 支持多种深度学习框架,如TensorFlow、Keras等。 - 提供了完整的深度学习生态系统,包括数据处理、模型训练、模型部署等功能。 缺点: - 由于基于Java语言,因此对于一些高性能计算任务可能不如C++等语言的框架。 - 与其他深度学习框架相比,DeepLearning4J的生态系统相对较小。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值