win7环境下jdk8、Scala、Spark、Hadoop的环境配置

最新推荐文章于 2022-10-30 13:25:14 发布

meng_xiaohua

最新推荐文章于 2022-10-30 13:25:14 发布

阅读量363

点赞数

本文链接：https://blog.csdn.net/meng_xiaohua/article/details/86612671

版权

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。

1.JDK的安装

jdk1.8下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

这里安装的是jdk-8u201-windows-x64.exe

我安装的是jdk 1.8的64位，这里必须安装64位的，是为了和hadoop对应，全部按照默认选项进行安装。安装完后配置环境变量。

配置环境变量：

新增JAVA_HOME：C:\Program Files\Java\jdk1.8.0_201

新增JRE_HOME：C:\Program Files\Java\jre1.8.0_201

PATH中添加：%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

配置完成后打开cmd命令检验：

指令Java

指令javac

指令Java -version

安装JDK1.8完成。

2.安装Scala

Scala下载地址：https://www.scala-lang.org/download/

我们下载scala-2.12.8.msi

配置Scala的环境变量

新增SCALA_HOME为C:\Program Files (x86)\scala

Path中添加%SCALA_HOME%\bin;

添加完成后，命令行检验：

Scala安装完成。

3.安装spark

下载地址：http://spark.apache.org/downloads.html

spark版本是2.4，对应的hadoop版本是2.7

（下载spark代码的时候直接下载预编译版本的）

解压下载的文件，假设解压目录为：C:\spark-2.4.0-bin-hadoop2.7。

配置spark的环境变量：

新增SPARK_HOME为C:\spark-2.4.0-bin-hadoop2.7

新增SPARK_CLASSPATH为C:\environment\spark-2.4.0-bin-hadoop2.7\jars

path中添加%SPARK_HOME%\bin

在cmd命令下输入spark-shell：

4.安装Hadoop

系统变量设置后，就可以在任意当前目录下的cmd中运行spark-shell，但这个时候很有可能会碰到各种错误，这里主要是因为Spark是基于Hadoop的，所以这里也有必要配置一个Hadoop的运行环境。在https://archive.apache.org/dist/hadoop/common/里可以看到Hadoop的各个历史版本，这里由于下载的Spark是基于Hadoop 2.7的（在Spark安装的第一个步骤中，我们选择的是Pre-built for Hadoop 2.7），我这里选择2.7.6版本，选择好相应版本并点击后，进入详细的下载页面，如下图所示，选择图中红色标记进行下载，这里上面的src版本就是源码，需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件，我这里下载的就是已经编译好的版本，即图中的’hadoop-2.7.6.tar.gz’文件。

设置环境变量：

新增HADOOP_HOME:C:\environment\hadoop-2.7.6

在PATH中添加%HADOOP_HOME%\bin

开启一个新的cmd，然后直接输入spark-shell命令。

正常情况下是可以运行成功并进入到Spark的命令行环境下的，但是对于有些用户可能会遇到空指针的错误。如图：

这个时候，主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是：
去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号，然后进入到bin目录下，找到winutils.exe文件，下载方法是点击winutils.exe文件，进入之后在页面的右上方部分有一个Download按钮，点击下载即可。
- 下载好winutils.exe后，将这个文件放入到Hadoop的bin目录下，我这里是C:\environment\hadoop-2.7.6\bin
- 在打开的cmd中输入

C:\environment\hadoop-2.7.6\bin\winutils.exe chmod 777 /tmp/hive

这个操作是用来修改权限的。注意前面的C:\environment\hadoop-2.7.6\bin部分要对应的替换成实际你所安装的bin目录所在位置。

经过这几个步骤之后，然后再次开启一个新的cmd窗口，如果正常的话，应该就可以通过直接输入spark-shell来运行Spark了。
正常的运行界面应该如下图所示：

5. 小结
　　至此，基本的Spark本地调试环境便拥有了，对于初步的Spark学习也是足够的。但是这种模式在实际的Spark开发的时候，依然是不够用的，需要借助于一个比较好用的IDE来辅助开发过程。下一讲就主要讲解ItelliJ IDEA以及Maven的配置过程。

6. Tips
血的教训：永远不要在软件的安装路径中留有任何的空格
网上找Hadoop 2.7.6的winutils.exe找不到的时候，直接用2.7.1的winutils.exe，照样能用

meng_xiaohua

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
win7环境下jdk8、Scala、Spark、Hadoop的环境配置

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。1.JDK的安装jdk1.8下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jd...
复制链接

扫一扫