01.简介
在python中使用pyspark并不是单纯的导入pyspark包就可以实现的。需要由不同的环境共同搭建spark环境,才可以在python中使用pyspark。
搭建pyspark所需环境:
python3,jdk,spark,Scala,Hadoop(可选)
02.jdk下载安装
下载地址:联系作者从百度网盘下载
- 打开Windows中的环境变量:
- 创建
JAVA_HOME:C:\Program Files\Java\jdk1.8.0_181
- 创建
CLASSPATH:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
- 在Path添加:
%JAVA_HOME%\bin;
- 测试是否安装成功:打开cmd命令行,输入
java -version
03.Scala下载安装
下载地址:联系作者从百度网盘下载
- 下载后进行安装
- 创建
SCALA_HOME: C:\Program Files (x86)\scala
- Path添加:
%SCALA_HOME%\bin
- 测试是否安装成功:打开cmd命令行,输入
scala -version
04.Hadoop下载安装
下载地址:联系作者从百度网盘下载
- 解压到指定目录即可。
- 环境变量:创建
HADOOP_HOME:D:\hadoop-2.7.7
- Path添加:
%HADOOP_HOME%\bin
- 测试是否安装成功:打开cmd命令行,输入
hadoop
05.spark下载安装
下载地址:联系作者从百度网盘下载
- 也可以选择下载指定版本:http://spark.apache.org/downloads.html
- 下载好之后解压放在随便一个目录下即可,但是目录名不可以有空格。
环境变量:
- 创建
SPARK_HOME:D:\spark-2.2.0-bin-hadoop2.7
- Path添加:
%SPARK_HOME%\bin
- 测试是否安装成功:打开cmd命令行,输入
spark-shell
06.anaconda下载安装
下载:联系作者从百度网盘下载
- 直接双击运行安装包即可
- 一直下一步
- 测试是否安装成功:命令行下输入
conda --version
07.测试环境是否搭建成功
测试整体环境是否搭建完成:
新建py文件并包含下面的测试代码:
from pyspark import SparkContext
sc = SparkContext("local", "count app")
words = sc.parallelize(
["scala",
"java",
"hadoop",
"spark",
"akka",
"spark vs hadoop",
"pyspark",
"pyspark and spark"
])
counts = words.count()
print("Number of elements in RDD -> %i" % counts)