Windows10+Pycharm+Pyspark环境安装单机版spark

首先请确保你已经配置好Java1.7以上环境

步骤一、spark官网下载spark2.0以上版本http://spark.apache.org/downloads.html

然后将其解压至C盘根目录:【本人使用的是spark-2.2.0-bin-hadoop2.7

步骤二:安装python环境【建议python3.5版本】,当然也可以直接安装Anaconda,然后使用自带或者创建python环境。

以及pycharm,这里有很多教程就不再赘述。

步骤三:

        1.打开pycharm-(左上角)file---settings--Project Interpreter--选择你的python环境

        2.打开解压后的spark文件---python---lib:C:\spark-2.2.0-bin-hadoop2.7\python\lib   你会看到有两个压缩文件

      

       将其 粘贴 复制 解压  到你所选python环境的Lib\site-packages中 比如:C:\Python35\Lib\site-packages

      然后可在pycharm创建py文件尝试输入import pyspark 若不报错则证明操作成功【另外也可以直接pip install pyspark==版本号】。下面是检验搭建是否

成功的例子代码:请务必看完后再尝试运行

from pyspark import *
import os
 
if __name__ == '__main__':
    # Windows的Spark安装目录
    os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 从本地模拟数据
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum
 
    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1

当然,要想成功运行还需要一些操作:
    '#你需要指定#Windows的Spark安装目录:os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7‘

  另外你也可以以下图示指定SPARK_HOME

 

点击OK即可。

 

下面可尝试运行以下代码【如果报错:

Exception: Java gateway process exited before sending the driver its port number

在错误之前若出现'cmd' + 一堆乱码可能是因为Windows10系统环境变量没有指定系统目录

尝试如下操作:

结束!!!!!!

参考博客:https://blog.csdn.net/jenrey/article/details/80356651

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值