Win10系统搭建Spark环境

在Win10系统下搭建Spark环境,有助于初学者学习开发及调试Spark应用。

软件包准备

不同版本Spark与PySpark存在不兼容的情况,以下版本经本人测试是可行的。

  1. spark-2.3.3-bin-hadoop2.7
  2. hadoop-2.7.7
  3. winutils
  4. java1.8
  5. scala-2.12.8
  6. pyspark-2.4.1

安装

  1. java及scala的安装就不用讲了,记得设置环境变量就行。另外建议到官网下载连接MySQL驱动,解压后将mysql-connector-java-5.1.47-bin.jar复制到\lib\ext目录下
  2. 解压spark、hadoop及winutils
  3. 将spark包下spark-2.3.3-bin-hadoop2.7\python复制到anaconda安装目录下Anaconda3\Lib\site-packages
  4. 用wintuitls包下hadoop-2.7.1\bin替换hadoop-2.7.7\bin
  5. 设置环境变量,示例如下:
JAVA_HOME=D:\JAVA
SCALA_HOME=D:\SCALA
SPARK_HOME=D:\ProgramData\spark-2.4.1-bin-hadoop2.7
HADOOP_HOME=D:\ProgramData\hadoop-2.7.7
CLASSPATH= %JAVA_HOME%\lib
PYTHONPATH=%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark;D:\ProgramData\Anaconda3
在Path后添加:
%SPAKR_HOME%\bin
%HADOOP_HOME%\bin
%SPARK_HOME%\python\lib\py4j
%SPARK_HOME%\python\lib\pyspark
%JAVA_HOME%\bin
D:\ProgramData\Anaconda3
%SCALA_HOME%\bin
  1. 安装PySpark及Py4j:
pip install pyspark==2.4.1; py4j==0.10.7自动安装
(安装有时很慢,建议先下载pyspark文件包:pip install pyspark-2.4.1.tar.gz)

验证

调出终端输入:pyspark或spark-shell
pycharm下验证:

# import os
# import sys

# os.environ['SPARK_HOME'] = "D:\ProgramData\spark-2.4.1-bin-hadoop2.7"
# sys.path.append("D:\ProgramData\spark-2.4.1-bin-hadoop2.7\python")

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName('TEST').setMaster('local')  # 创建配置
sc = SparkContext(conf=conf)  # 创建Spark环境
data_rdd = sc.parallelize(['a', 'b', 'c', 'd'])  # 根据list,array创建RDD
print(data_rdd.take(2))

参考资料

https://www.cnblogs.com/momogua/p/9285930.html

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值