Win7 pySpark安装

转载 2017年01月03日 14:22:25

目录(?)[+]
  1. 安装
  2. pyCharm wordCount示例
  3. pySpark学习地址

1.序

由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。
(1)jdk-8u91-windows-x64.exe
(2)spark-1.3.0-bin-hadoop2.4.tgz

2.安装

(1)jdk默认安装
(2)spark-1.3.0-bin-hadoop2.4.tgz先进行解压。假设目录为E:\spark-1.3.0-bin-hadoop2.4
(3)配置环境变量Path,添加E:\spark-1.3.0-bin-hadoop2.4\bin。这时,你可以利用打开cmd,输入pySpark。没有问题的话,你可以看到下图

(4)要想在PyCharm中调用pySpark,需要加载包。将E:\spark-1.3.0-bin-hadoop2.4\python文件夹下pySpark文件夹拷贝到C:\Anaconda2\Lib\site-packages**(注:我的python安装目录是这个路径,可能有的读者是C:\Python27\Lib\site-packages)**

3.pyCharm wordCount示例

  • 新建wordCount.py文件,写代码
import sys
from operator import add

from pyspark import SparkContext


if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')) \
                  .map(lambda x: (x, 1)) \
                  .reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print "%s: %i" % (word, count)

    sc.stop()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 代码中words.txt内容如下
good bad cool
hadoop spark mlib
good spark mlib
cool spark bad
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4
  • 然后运行,然后报错,哈哈哈

  • 其实是还有一个地方没有配置
    在pyCharm的菜单栏里找到Run => Edit Configurations,点击下面红色标记的地方,添加环境变量。

  • 再次运行,就会得到如下结果

4.pySpark学习地址

(1)http://spark.apache.org/docs/latest/api/python/pyspark.html
(2)在上面解压的文件夹E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代码,可以进行学习,本文中的wordCount就是用的上面的代码(进行了一点点修改)。

Win7 pySpark安装

1.序 由于笔者目前用python比较多,所以想安装下pySpark,并且在pyCharm中调用。 (1)jdk-8u91-windows-x64.exe (2)spark-1.3.0-bin-...
  • a819825294
  • a819825294
  • 2016年06月29日 14:46
  • 11432

pyspark安装

详细安装见参考: http://blog.csdn.net/yiyouxian/article/details/51020334 http://blog.csdn.net/a819825294...
  • yang889999888
  • yang889999888
  • 2017年08月29日 11:19
  • 169

Pyspark安装及问题

配置 jdk,scala,hadoop,spark,hive,mysql,pyspark集群(yarn)参见http://blog.csdn.net/bailu66/article/details/5...
  • qq_33638017
  • qq_33638017
  • 2017年12月07日 14:22
  • 218

Ubuntu下安装pyspark

Ubuntu下安装pyspark 安装环境 Python2.7 Ubuntu14.04 Java6+ 步骤一:下载spark 下载地址:spark官网 ,我选择的是spark-2...
  • weixin_39599711
  • weixin_39599711
  • 2018年01月08日 15:12
  • 82

基于pyspark 和scala spark的jupyter notebook 安装

spark安装(本次启动一个worker)首先安装spark 打开apache spark官网下载页点这里 选择spark版本下载,这里我选spark 2.0.2 在linux系统中使用wget...
  • Xmo_jiao
  • Xmo_jiao
  • 2017年05月24日 11:20
  • 3305

Jupyter中配置PySpark 环境搭建 mac版

拖到现在
  • lotusws
  • lotusws
  • 2017年12月27日 10:43
  • 40

pySpark环境搭建

1.序 由于笔者目前用python比较多,所以想安装下pySpark,并且在Anaconda2中调用。 (1)jdk-8u91-windows-x64.exe (2)spark-1.6.0-bin...
  • qq_36330643
  • qq_36330643
  • 2017年11月02日 20:45
  • 328

Win 7 64位 单机Spark安装

1.准备安装软件 (1)jdk 1.8 (2)scala (3)Intellij IDE (4)spark-1.3.0-bin-hadoop2.4.tgz 为了读者方便,这里已经把以上文...
  • a819825294
  • a819825294
  • 2016年06月10日 13:35
  • 9104

Ubuntu下安装PySpark

1、PySpark的按照 2、Ipython notebook中使用PySpark
  • github_33934628
  • github_33934628
  • 2017年04月16日 00:21
  • 2841

window 下 notebook 中的 pyspark安装

背景:小组成员都习惯用python,但是有spark计算的需求,需要一个快速上手的环境https://www.cnblogs.com/zhw-080/archive/2016/08/05/574058...
  • k284213498
  • k284213498
  • 2017年12月05日 18:08
  • 89
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Win7 pySpark安装
举报原因:
原因补充:

(最多只允许输入30个字)