前言
这篇博客是在同事的帮忙下完成的,这里我做一个记录,感谢牛逼的同事一波先。哈哈。
本篇博客目的是指导搭建一个Spark的调试环境,在Win10下面。
本人使用的开发工具是IDEA,博客里面用的的所有依赖包会在博客后面分享给需要的朋友,希望能帮助你,跨好大数据入门的一步。
准备工作
为了搭建Spark的调试环境,我们下面需要准备一些工具:
- hadoop-2.8.5.tar(Spark需要依赖于Hadoop)
- scala-2.11.12
- winutils-master(hadoop不可以直接在Win下运行,所以需要这个工具)
- IDEA 2018
- jdk1.8、maven等基础环境
下载安装包
-
下载Spark
我们知道Spark的启动需要依赖于Hadoop,通过官方的说明,可以知道它是在Hadoop对应的版本上面进行构建的。
我们先到Spark官网看看,然后选择我们需要的Spark版本。
我下载spark-2.4.0-bin-hadoop2.7这个版本。根据官网提供的信息,这个Spark版本,构建在Hadoop2.7之后的版本,并且需要Scala版本2.11
-
下载Scala
根据我们Spark的版本,我们到Scala官网下载2.11.12这个Scala SDK版本
-
下载Hadoop
接下来,我们需要到Hadoop官网下载,对应版本的Hadoop.
-
下载winutils-master
由于在win下不可以运行hadoop,虽然我们下载了Hadoop的软件包,还是不可以直接使用。
为了解决这个问题,我们需要额外下载一个东西winutils-master。
然后把里面hadoop-2.8.3\bin里面的文件替换到我们之前hadoop源码包的bin目录下。
环境变量的配置
软件包已经下载完成了,我们开始进行环境变量的配置!
环境变量的配置中,我们需要把环境变量配置在系统变量里面。
如果配置在用户变量里面,当管理员运行用户运行项目的时候,读取不到我们配置的