Windows Spark开发环境部署

最新推荐文章于 2022-12-24 18:18:54 发布

clay小哈_

最新推荐文章于 2022-12-24 18:18:54 发布

阅读量610

点赞数

分类专栏： Machine Learning、Cloud 文章标签： windows spark python

本文链接：https://blog.csdn.net/u012942818/article/details/71923553

版权

Machine Learning、Cloud 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Windows下单机安装Spark开发环境

机器：windows 10 64位。
因Spark支持scala、java、python等语言，所以尝试安装了不同语言环境下的spark开发环境。

1、jdk1.8、Python 3.5的安装

1.1 jdk1.8的安装

安装oracle下的jdk，我安装的是jdk 1.8，安装完新建系统环境变量JAVA_HOME，变量值为“D:\Program Files\Java\jdk1.8.0_121”，视自己安装路径而定。
同时在系统环境变量中添加变量Path下添加D:\Program Files\Java\jdk1.8.0_121\bin和D:\Program Files\Java\jre8\bin。
之后再cmd命令行查看是否安装成功：java -version

1.2 Python 3.6.0 的安装

我是直接安装的集成开发包Anaconda3;同样，需要将安装路径添加到path中；C:\Users\Denius\Miniconda3和C:\Users\Denius\Miniconda3\Scripts
查看是否安装成功：

2、Spark环境配置

2.1 安装spark

去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本，我下载的是spark-1.6.0-bin-hadoop2.6.tgz，spark版本是1.6，对应的hadoop版本是2.6
解压下载的文件，假设解压目录为：D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量，同时新建SPARK_HOME变量，变量值为：D:\spark-1.6.0-bin-hadoop2.6

2.2 Hadoop工具包安装

spark是基于hadoop之上的，运行过程中会调用相关hadoop库，如果没配置相关hadoop运行环境，会提示相关出错信息，虽然也不影响运行，但是这里还是把hadoop相关库也配置好吧。
去下载hadoop 2.7编译好的包，我下载的是hadoop-2.7.0.tar.gz；
解压下载的文件夹，将相关库添加到系统Path变量中：D:\hadoop-2.7.0\bin；同时新建HADOOP_HOME变量，变量值为：D:\hadoop-2.7.0；

2.3 安装py4j

将spark目录下的pyspark文件夹（D:\spark-1.6.0-bin-hadoop2.7\python\pyspark）复制到python安装目录D:\Python27\Lib\site-packages里;
在cmd命令行下运行pyspark，然后使用cd命令，进入目录D:\python27\Scripts;运行pip install py4j安装py4j库

clay小哈_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Windows Spark开发环境部署

Windows下单机安装Spark开发环境机器：windows 10 64位。因Spark支持scala、java、python等语言，所以尝试安装了不同语言环境下的spark开发环境。1、jdk1.8、Python 3.5的安装1.1 jdk1.8的安装安装oracle下的jdk，我安装的是jdk 1.8，安装完新建系统环境变量JAVA_HOME，变量值为“D:\Program Files\
复制链接

扫一扫