spark python 环境搭建 windows
- 下载jdk8 并配置环境变量
JAVA_HOME C:\Program Files\Java\jdk1.8.0_131
CLASSPATH %JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
path:%JAVA_HOME%\bin
验证是否配置成功
cmd下 输入 java -version
- 下载hadoop2.7.3
解压后配置环境变量
HADOOP_HOME F:\malingyu\hadoop-2.7.3\hadoop-2.7.3
path :%HADOOP_HOME%\bin
下载hadoop下面的bin文件,解压后替换之前的bin文件。
- 下载spark-2.1.0-bin-hadoop2.7 (1)
解压后配置环境变量
SPARK_HOME F:\malingyu\spark2.1.0hadoop2.7
path:%SPARK_HOME%\bin
%SPARK_HOME%\sbin
- 配置PYTHONPATH环境变量
PYTHONPATH
%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip;%SPARK_HOME%\python\lib\pyspark.zip
- 验证是否配置成功,在python编辑器中输入以下代码:
from pyspark
import SparkConf, SparkContext
conf = SparkConf().setMaster( "local[*]").setAppName( "First_App")
sc = SparkContext( conf=conf)
data = sc.parallelize( range( 10))
ans = data.reduce( lambda x, y: x + y)
print (ans)
lines = sc.textFile( "F:\malingyu\spark2.1.0hadoop2.7\README.md")
print (lines.count())
conf = SparkConf().setMaster( "local[*]").setAppName( "First_App")
sc = SparkContext( conf=conf)
data = sc.parallelize( range( 10))
ans = data.reduce( lambda x, y: x + y)
print (ans)
lines = sc.textFile( "F:\malingyu\spark2.1.0hadoop2.7\README.md")
print (lines.count())
print (lines.first())
若出现45
104
就是已经配置成功,可以在python上使用spark。