TensorflowonSpark环境搭建（3台机器）

最新推荐文章于 2024-04-20 09:14:38 发布

曾德天的博客

最新推荐文章于 2024-04-20 09:14:38 发布

阅读量5k

点赞数 2

分类专栏： tensorflow

本文链接：https://blog.csdn.net/tiantianhuanle/article/details/86223209

版权

tensorflow 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HADOOP环境搭建：

可以参考这篇文章：https://blog.csdn.net/qq_34256296/article/details/81321024

Tips:在搭建的过程中所创建的临时目录需要在hadoop文件夹内，以方便在配置好hadoop环境后通过scp命令分发到其他机器上面。

在hadoop集群启动后，通过访问主节点的50070和8088两个端口，可以分别web访问hadoop的hdfs系统和yarn管理系统。

HADOOP环境搭建：

可以参考这篇文章：https://blog.csdn.net/qq_34256296/article/details/81321024

Tips:在搭建的过程中所创建的临时目录需要在hadoop文件夹内，以方便在配置好hadoop环境后通过scp命令分发到其他机器上面。

在hadoop集群启动后，通过访问主节点的50070和8088两个端口，可以分别web访问hadoop的hdfs系统和yarn管理系统。

之后通过跑hadoop集群自带的一个小例子wordcount来验证hadoop系统可以正常工作。

具体操作可以参考链接：

https://www.cnblogs.com/yangmang/p/6275578.html?utm_source=itdadao&utm_medium=referral

最终运行成功，执行完mapreduce两阶段，显示如下的信息：-

SPARK环境搭建：

参考这篇文章：https://www.jianshu.com/p/6e9dc5b8e746

其中需要注意的是安装scala要在所有的机器上都执行，链接中的hadoop安装部分可以跳过；在启动spark集群环境后，通过访问主节点上的8080和18080两个端口，分别可以web访问spark的管理系统和历史日志记录系统。

之后通过运行spark自带的计算圆周率的例子来验证spark系统可以正常工作。具体操作如下：在spark主目录下执行如下命令

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --driver-memory 1g --executor-memory 1g examples/jars/spark-examples_2.11-2.4.0.jar 10

最终运行显示如下信息（无报错）：

安装了 Spark 的 Hadoop 分布式集群环境说明：

主机名	ip	用途
P002089.antfact.com	10.20.2.89	ResourceManager NameNode SecondaryNameNode Master
P002090.antfact.com	10.20.2.90	DataNode NodeManager Worker
P002091.antfact.com	10.20.2.91	DataNode NodeManager Worker

TensorflowonSpark环境搭建：

主要的步骤参考雅虎给出的官方链接：

https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_YARN，由于官方给出的例子较为简洁，有些资料还需要参考其他博客或技术文档。

如在python编译的过程中由zlib和ssl模块产生的问题，可以参考链接

https://www.cnblogs.com/heimianshusheng/p/6768019.html解决，即

将mnist数据调用tensorflowonSpark内部的包转换为csv格式，存储于hdfs中；在通过命令行提交命令（如下图所示）的方式训练模型，同样模型存放于hdfs中；

最后使用训练出的模型对测试数据进行预测推理，同样是命令行提交；最终预测的结果可以再hdfs中指定的目录中查看。

曾德天的博客

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
TensorflowonSpark环境搭建（3台机器）

HADOOP环境搭建：可以参考这篇文章：https://blog.csdn.net/qq_34256296/article/details/81321024Tips:在搭建的过程中所创建的临时目录需要在hadoop文件夹内，以方便在配置好hadoop环境后通过scp命令分发到其他机器上面。在hadoop集群启动后，通过访问主节点的50070和8088两个端口，可以分别web访问hado...
复制链接

扫一扫