win7环境下jdk8、Scala、Spark、Hadoop的环境配置

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。

1.JDK的安装

jdk1.8下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

这里安装的是jdk-8u201-windows-x64.exe

我安装的是jdk 1.8的64位,这里必须安装64位的,是为了和hadoop对应,全部按照默认选项进行安装。安装完后配置环境变量。

配置环境变量:

新增JAVA_HOME:C:\Program Files\Java\jdk1.8.0_201

新增JRE_HOME:C:\Program Files\Java\jre1.8.0_201

PATH中添加:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;

配置完成后打开cmd命令检验:

指令Java

指令javac

指令Java -version

安装JDK1.8完成。

2.安装Scala

Scala下载地址:https://www.scala-lang.org/download/

我们下载scala-2.12.8.msi

配置Scala的环境变量

新增SCALA_HOME为C:\Program Files (x86)\scala

Path中添加%SCALA_HOME%\bin;

添加完成后,命令行检验:

Scala安装完成。

 

3.安装spark

下载地址:http://spark.apache.org/downloads.html

spark版本是2.4,对应的hadoop版本是2.7 

(下载spark代码的时候直接下载预编译版本的) 


解压下载的文件,假设解压 目录为:C:\spark-2.4.0-bin-hadoop2.7。

配置spark的环境变量:

新增SPARK_HOME为C:\spark-2.4.0-bin-hadoop2.7

新增SPARK_CLASSPATH为C:\environment\spark-2.4.0-bin-hadoop2.7\jars

path中添加%SPARK_HOME%\bin

在cmd命令下输入spark-shell:

4.安装Hadoop

系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。在https://archive.apache.org/dist/hadoop/common/里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.7),我这里选择2.7.6版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示,选择图中红色标记进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的’hadoop-2.7.6.tar.gz’文件。

设置环境变量:

新增HADOOP_HOME:C:\environment\hadoop-2.7.6

在PATH中添加%HADOOP_HOME%\bin

开启一个新的cmd,然后直接输入spark-shell命令。

正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是对于有些用户可能会遇到空指针的错误。如图:

这个时候,主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是: 
去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件,下载方法是点击winutils.exe文件,进入之后在页面的右上方部分有一个Download按钮,点击下载即可。 
- 下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是C:\environment\hadoop-2.7.6\bin
- 在打开的cmd中输入 

C:\environment\hadoop-2.7.6\bin\winutils.exe chmod 777 /tmp/hive 

这个操作是用来修改权限的。注意前面的C:\environment\hadoop-2.7.6\bin部分要对应的替换成实际你所安装的bin目录所在位置。

经过这几个步骤之后,然后再次开启一个新的cmd窗口,如果正常的话,应该就可以通过直接输入spark-shell来运行Spark了。 
正常的运行界面应该如下图所示:

5. 小结
  至此,基本的Spark本地调试环境便拥有了,对于初步的Spark学习也是足够的。但是这种模式在实际的Spark开发的时候,依然是不够用的,需要借助于一个比较好用的IDE来辅助开发过程。下一讲就主要讲解ItelliJ IDEA以及Maven的配置过程。

6. Tips
血的教训:永远不要在软件的安装路径中留有任何的空格
网上找Hadoop 2.7.6的winutils.exe找不到的时候,直接用2.7.1的winutils.exe,照样能用 
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值