【pyspark专题】在win10环境中安装配置pyspark环境(重点环境配置）第一讲_windows 10 pyspark3.0.1搭配python的版本是-CSDN博客

本文链接：https://blog.csdn.net/weixin_43529465/article/details/123508936

windows下pyspark安装环境配置：

文章目录

windows下pyspark安装环境配置：

安装目录展示

在这里插入图片描述

需要的软件：

python3.6
jdk1.8
spark-2.3.1-bin-hadoop2.7.tar
hadoop2.7.3-on-windows_X64-master.zip

这里需要注意一下版本对应：spark2.3.1 对应 python3.6可用，python3.8报错(也是为什么上图安装了两个python版本)

安装过程检测是否安装成功

一、安装python是否成功

python

在这里插入图片描述

二、安装JDK是否成功

java -version

在这里插入图片描述

三、安装spark-2.3.1-bin-hadoop2.7.tar

3.1 下载软件包

下载Spark2.3.1，注意与操作系统版本一致
下载地址为：http://spark.apache.org/downloads.html
在这里插入图片描述

3.2 解压安装

只需解压程序包，并拷贝至存放路径，注意安装路径中的文件夹名称不要存在空格

3.3 配置环境变量

新建系统变量SPARK_HOME，值为Spark安装路径
配置系统变量PATH，添加%SPARK_HOME%\bin及%SPARK_HOME%\sbin
在这里插入图片描述
针对PATH环境变量进行配置

3.4 配置日志显示级别

选择…\spark\conf\目录下log4j.properties.template，复制为log4j.properties
将log4j.properties中，“INFO, console"改为"WARN, console”
在这里插入图片描述

四、配置Hadoop支持模块

4.1 下载安装包（仅仅2.3M大小）

下载Hadoop支持模块

4.2 安装

只需解压程序包，并拷贝至存放路径，注意安装路径中的文件夹名称不要存在空格
在这里插入图片描述

4.3 配置环境变量

新建系统变量HADOOP_HOME，值为Hadoop安装路径
配置系统变量PATH，添加%HADOOP_HOME%\bin
在这里插入图片描述

检测Spark环境是否在win系统下有效可用

开启CMD输入下列命令：

spark-shell  #查看Spark版本信息
pyspark      #查看Pyspark版本

在这里插入图片描述

出现上述界面说明安装成功！！！

python脚本进行验证

# 从spark.sql模块中导入SparkSession
from pyspark.sql import SparkSession

# 实例化一个Sparksession,用子连接Spark集群
#app名中不要带空格,否剩会出错
#此处以本地模式加载集群

spark = SparkSession.builder.master("local") \
   .appName("CreditCard") \
   .getOrCreate()

sc = spark.sparkContext
print(sc)

在这里插入图片描述