文章目录
Win10 下部署pyspark 工作环境
1、环境安装
1.1 、windows 环境部署pyspark
1.1.1 安装JDK
jdk版本需要选择1.8 及以上
- 下载地址
https://www.oracle.com/java/technologies/javase-downloads.html
- 安装 傻瓜式下一步
- 配置环境变量
JAVA_HOME
E:\environmentTools\Java\jdk1.8.0_152
JRE_HOME
E:\environmentTools\Java\jre1.8.0_152
# path 里面 添加 JAVA 和 JRE 的变量
%JAVA_HOME%\bin;%JRE_HOME%\bin
- 验证
# 打开cmd窗口 win + R
# 输入
java -version
# 出现下面结果 安装成功
java version "1.8.0_152"
Java(TM) SE Runtime Environment (build 1.8.0_152-b16)
Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)
1.1.2 下载 scala
注意:scala 的版本需要和 spark的版本对应。
- 下载地址
https://www.scala-lang.org/download/
// windows下载 scala-2.*.*.msi 文件
- 傻瓜式下一步
- 配置环境变量
SCALA_HOME
E:\environmentTools\scala
# path 里面 添加 SCALA_HOME 的变量
%SCALA_HOME%\bin;
# 注意 如果环境变量不生效 可以使用绝对路径进行配置;该问题可能是jdk 或者其他环境变量配置不规范导致。
# path 里面 添加
E:\environmentTools\scala\bin
- 验证
# 打开cmd窗口 win + R
# 输入
scala
# 出现如下 说明成功
Welcome to Scala 2.12.1 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152).
Type in expressions for evaluation. Or try :help.
scala>
- 问题解答
# 注意:如果出现 'scala' 不是内部或外部命令,也不是可运行的程序。 -- 安装失败
# cmd 下面输入
%SCALA_HOME%
# 如果有相应的路径值,说明 path中该环境变量或者其他环境变量有误;如 Win10 path 列表模式下 %JAVA_HOME%\bin 后多个分号虽然java -version 可用,但是后面配置的scala 变量不生效
# 或者直接加相对路径
1.1.3 下载并安装hadoop + winutils.exe
- 下载地址
# hadoop
https://archive.apache.org/dist/hadoop/common/
# winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件
https://github.com/steveloughran/winutils
- 安装
1、直接解压
2、将下载好的winutils.exe文件放入到Hadoop的bin目录下
- 配置环境变量
HADOOP_HOME
E:\environmentTools\hadoop-2.7.0
# path 里面 添加 HADOOP_HOME 的变量
%HADOOP_HOME%\bin;
- 对 c:\tmp/Hive 文件授权
winutils.exe chmod 777 c:\tmp\Hive
- 问题简答
# 报错信息 winutils.exe chmod 777 c:\tmp\Hive
ChangeFileModeByMask error (2)
# 该问题是 c盘下面没有Hive文件夹,创建即可
1.1.4 下载安装spark
- 下载地址
http://spark.apache.org/downloads.html
-
安装
直接解压
-
配置环境变量
SPARK_HOME
E:\environmentTools\spark\spark-2.4.7-bin-hadoop2.7
# path 里面 添加 SPARK_HOME 的变量
%SPARK_HOME%\bin
- 验证
# 打开cmd窗口 win + R
# 输入
spark-shell
# 出现 安装成功
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.4.7
/_/
Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_152)
Type in expressions to have them evaluated.
Type :help for more information.
- 问题解答
# 问题1 :spark-shell 系统找不到指定的路径。
# 首先查看环境变量是否生效cmd 输入以下指令
%SPARK_HOME%
# 如果出现spark目录,进入spark目录 \bin 目录下,点击 spark-shell.cmd 文件,出现闪退的话说明当前spark运行环境有问题,可能是scala配置失败,或者scala和 spark 的版本不匹配
# spark 和 scala关系可以通过以下 网站查看
https://mvnrepository.com/artifact/org.apache.spark/spark-core
1.1.5 Anconda 中下载 pyspark
pip install pyspark
pip install