Windows10+Pycharm+Pyspark环境安装单机版spark

最新推荐文章于 2024-08-16 22:52:43 发布

SunChao3555

最新推荐文章于 2024-08-16 22:52:43 发布

阅读量2.9k

点赞数 2

分类专栏： Python 文章标签： pyspark 安装pyspark Windows10 pycharm

本文链接：https://blog.csdn.net/SunChao3555/article/details/84202769

版权

Python 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

首先请确保你已经配置好Java1.7以上环境

步骤一、spark官网下载spark2.0以上版本http://spark.apache.org/downloads.html

然后将其解压至C盘根目录：【本人使用的是spark-2.2.0-bin-hadoop2.7】

步骤二：安装python环境【建议python3.5版本】，当然也可以直接安装Anaconda，然后使用自带或者创建python环境。

以及pycharm，这里有很多教程就不再赘述。

步骤三：

1.打开pycharm-（左上角）file---settings--Project Interpreter--选择你的python环境

2.打开解压后的spark文件---python---lib：C:\spark-2.2.0-bin-hadoop2.7\python\lib 你会看到有两个压缩文件

将其粘贴复制解压到你所选python环境的Lib\site-packages中比如：C:\Python35\Lib\site-packages

然后可在pycharm创建py文件尝试输入import pyspark 若不报错则证明操作成功【另外也可以直接pip install pyspark==版本号】。下面是检验搭建是否

成功的例子代码：请务必看完后再尝试运行

from pyspark import *
import os
 
if __name__ == '__main__':
    # Windows的Spark安装目录
    os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 从本地模拟数据
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum
 
    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1

当然，要想成功运行还需要一些操作：
'#你需要指定#Windows的Spark安装目录：os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7‘

另外你也可以以下图示指定SPARK_HOME

点击OK即可。

下面可尝试运行以下代码【如果报错：

Exception: Java gateway process exited before sending the driver its port number

在错误之前若出现'cmd' + 一堆乱码，可能是因为Windows10系统环境变量没有指定系统目录】

尝试如下操作：

结束！！！！！！

参考博客：https://blog.csdn.net/jenrey/article/details/80356651

SunChao3555

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录