首先请确保你已经配置好Java1.7以上环境
步骤一、spark官网下载spark2.0以上版本http://spark.apache.org/downloads.html
然后将其解压至C盘根目录:【本人使用的是spark-2.2.0-bin-hadoop2.7】
步骤二:安装python环境【建议python3.5版本】,当然也可以直接安装Anaconda,然后使用自带或者创建python环境。
以及pycharm,这里有很多教程就不再赘述。
步骤三:
1.打开pycharm-(左上角)file---settings--Project Interpreter--选择你的python环境
2.打开解压后的spark文件---python---lib:C:\spark-2.2.0-bin-hadoop2.7\python\lib 你会看到有两个压缩文件
将其 粘贴 复制 解压 到你所选python环境的Lib\site-packages中 比如:C:\Python35\Lib\site-packages
然后可在pycharm创建py文件尝试输入import pyspark 若不报错则证明操作成功【另外也可以直接pip install pyspark==版本号】。下面是检验搭建是否
成功的例子代码:请务必看完后再尝试运行
from pyspark import *
import os
if __name__ == '__main__':
# Windows的Spark安装目录
os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7'
# Create SparkConf
conf = SparkConf() \
.setAppName("WordCount") \
.setMaster("local") \
# Create SparkContext
sc = SparkContext(conf=conf)
# 从本地模拟数据
datas = ["you,jump", "i,jump"]
# Create RDD
rdd = sc.parallelize(datas)
print(rdd.count()) # 2
print(rdd.first()) # you,jum
# WordCount
wordcount = rdd.flatMap(lambda line: line.split(",")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
for wc in wordcount.collect():
print(wc[0] + " " + str(wc[1]))
# you 1
# jump 2
# i 1
当然,要想成功运行还需要一些操作:
'#你需要指定#Windows的Spark安装目录:os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7‘
另外你也可以以下图示指定SPARK_HOME
点击OK即可。
下面可尝试运行以下代码【如果报错:
Exception: Java gateway process exited before sending the driver its port number
在错误之前若出现'cmd' + 一堆乱码,可能是因为Windows10系统环境变量没有指定系统目录】
尝试如下操作:
结束!!!!!!
参考博客:https://blog.csdn.net/jenrey/article/details/80356651