【pyspark专题】在win10环境中安装配置pyspark环境(重点环境配置)第一讲

windows下pyspark安装环境配置:

安装目录展示

在这里插入图片描述

需要的软件:

python3.6
jdk1.8
spark-2.3.1-bin-hadoop2.7.tar
hadoop2.7.3-on-windows_X64-master.zip

这里需要注意一下版本对应:spark2.3.1 对应 python3.6可用,python3.8报错(也是为什么上图安装了两个python版本)

安装过程检测是否安装成功

一、安装python是否成功

python

在这里插入图片描述

二、安装JDK是否成功

java -version

在这里插入图片描述

三、安装spark-2.3.1-bin-hadoop2.7.tar

3.1 下载软件包

下载Spark2.3.1,注意与操作系统版本一致
下载地址为:http://spark.apache.org/downloads.html
在这里插入图片描述

3.2 解压安装

只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格

3.3 配置环境变量

新建系统变量SPARK_HOME,值为Spark安装路径
配置系统变量PATH,添加%SPARK_HOME%\bin及%SPARK_HOME%\sbin
在这里插入图片描述
针对PATH环境变量进行配置
在这里插入图片描述

3.4 配置日志显示级别

选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties
将log4j.properties中,“INFO, console"改为"WARN, console”
在这里插入图片描述
在这里插入图片描述

四、配置Hadoop支持模块

4.1 下载安装包(仅仅2.3M大小)

下载Hadoop支持模块

4.2 安装

只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
在这里插入图片描述

4.3 配置环境变量

新建系统变量HADOOP_HOME,值为Hadoop安装路径
配置系统变量PATH,添加%HADOOP_HOME%\bin
在这里插入图片描述

检测Spark环境是否在win系统下有效可用

开启CMD输入下列命令:

spark-shell  #查看Spark版本信息
pyspark      #查看Pyspark版本

在这里插入图片描述
在这里插入图片描述
出现上述界面说明安装成功!!!

python脚本进行验证

# 从spark.sql模块中导入SparkSession
from pyspark.sql import SparkSession

# 实例化一个Sparksession,用子连接Spark集群
#app名中不要带空格,否剩会出错
#此处以本地模式加载集群

spark = SparkSession.builder.master("local") \
   .appName("CreditCard") \
   .getOrCreate()

sc = spark.sparkContext
print(sc)

在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值