pySpark 在windows下环境搭建

最新推荐文章于 2024-09-10 20:43:58 发布

黄大芬

最新推荐文章于 2024-09-10 20:43:58 发布

阅读量1.3w

点赞数 5

分类专栏： python 机器学习文章标签： spark hadoop python scala

本文链接：https://blog.csdn.net/funfun0/article/details/77802590

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

本人系统是windows,64位
要想在windows下搭建Spark(python版本)主要分为：

JDK安装配置
Scala安装配置
Spark安装配置
Hadoop安装配置
Python安装配置
PyCharm运行

JDK安装配置

JDK 版本需要在 1.8
下载地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html
配置环境变量
添加变量 JAVA_HOME 值为jdk目录
在path 追加 ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
保存后
cmd 运行 java -version
这里写图片描述

Scala安装配置

Scala download 下载对应scala 版本【注意：Scala 1.6.2版本只能使用Spark 2.10各个版本；Scala 2.10.6 可适配Spark1.3.0到1.6.2】
windows 下直接下载msi 直接运行会自动写入到path
这里写图片描述

安装完毕，验证Scala
这里写图片描述

[如果系统找不到scala 命令，就自己手动将scala安装目录加入到系统环境变量的path]

Spark安装配置

spark download 安装spark
这里写图片描述
安装的目录应该是要与spark bin的同一层上
解压后
运行cmd
spark-shell
这时应该还没成功的，会有报错
请看下一步

Hadoop安装配置

hadoop 2.6.4 download
下载hadoop解压之后
设置环境变量
添加 HADOOP_HOME 值为hadoop解压目录
添加path ;%HADOOP_HOME%\bin

下载2.6版本hadoop 会缺少winutils.exe
去 http://blog.csdn.net/u011513853/article/details/52865076 下载对应hadoop 版本的winutils.exe
下载完毕后将 winutils.exe 复制到 %HADOOP_HOME%\bin 目录下
注意：2.7版本也适用于2.6
还要重点注意！！
需要修改 winutils.exe 访问权限
先进入到%HADOOP_HOME%\bin 目录下

hadoop fs -chmod -R 777 /tmp

运行 spark-shell

这里写图片描述

从图中可以看到，在直接输入spark-shell命令后，Spark开始启动，并且输出了一些日志信息，大多数都可以忽略，需要注意的是两句话：

Spark context available as sc.
SQL context available as sqlContext.

Python安装配置

windows 下的话就很简单啦，直接下载msi点击运行就可以了

https://python-xy.github.io/downloads.html

这里是python(X,Y)已经包含spark需要的lib了，所以很方便
python 下载，如果是msi就自动加入path,如果不行就手动加入吧
cmd输入 python

这里写图片描述

PyCharm运行

Pycharm IDE 下载
http://www.jetbrains.com/pycharm/download/#section=windows

1 设置工程的环境变量
这里写图片描述

2 引入相关的spark库

这里写图片描述

3.测试spark

__author__ = 'Helen Huang'
import os
import sys

os.environ['SPARK_HOME']="D:\spark\spark-1.6.2-bin-hadoop2.6\spark-1.6.2-bin-hadoop2.6"
sys.path.append("D:\spark\spark-1.6.2-bin-hadoop2.6\spark-1.6.2-bin-hadoop2.6\python")


from pyspark import SparkContext

sc = SparkContext('local')
doc = sc.parallelize([['a','b','c'],['b','d','d']])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
    dict={}
    wd = word_dict_b.value
    for w in d:
        if dict.has_key(wd[w]):
            dict[wd[w]] +=1
        else:
            dict[wd[w]] = 1
    return dict
print doc.map(wordCountPerDoc).collect()
print "successful!"