window10下spark2.1.0单节点环境及开发环境搭建及运行全流程走通

最新推荐文章于 2024-07-23 11:07:22 发布

mc幻刺

最新推荐文章于 2024-07-23 11:07:22 发布

阅读量5.1k

点赞数

分类专栏： spark;scala;maven;IDEA 文章标签： spark scala 调试编程 maven

本文链接：https://blog.csdn.net/nju_mc/article/details/54954999

版权

本文介绍了如何在Windows 10上搭建Spark 2.1.0单节点环境，包括安装JDK8、Scala2.11.8，配置Maven，下载并配置Spark，解决运行时的问题，以及建立Spark开发环境。文章还提到了遇到的错误和解决方法，例如设置HADOOP_HOME，修改log4j.properties，以及使用spark-submit运行示例程序。

摘要由CSDN通过智能技术生成

作为一名初入spark编程的初级工程师，在工作中总是会有一些程序需要先在自己的spark环境下试跑，所以需要自己在自己电脑中安装自己的spark运行环境以及开发，方便用于调试，还可以时不时的测试一下API，玩一玩自己随手编的小程序，以便学习，因为开源的东西变化太快，总是需要你不断学习...最近在工作中就有这样的一个需求，而网上也没有最新的资源，抱着和大家分享一起学习的心态，从头到尾咱们来一遍！

首先啥也不说了，安装好JDK8和Scala2.11.8，JDK不得低于1.7，Scala则需要对应好自己选择的Spark的版本。版本选择如下：

大家注意“Note”它明确标识了这是基于scala2.11打包好的程序，如果大家想要使用别的版本scala打包spark，下载sapark源码使用SBT打包即可。

作为standalone单节点spark，不必太复杂，只要能运行spark程序、调试以及学习源码就行，所以一切最简：直接在window10上搭建最简单的spark环境以及开发环境(linux固然好，其实搭建起来也不慢，更可以练手，大家可以去了解)，我的语言选择如下：

(偷个懒，去听ASMR了，最近真的累，后续会在明天周末更新完毕，请不要骂我)。

这是基本的语言环境，然后就要配置maven了。去官网下载maven，解压(不要去修改任何东西)以后并配置路径(配置路径相信大家都会，在window环境变量里面配置即可)。为什么下载maven，因为现在开发起来，maven便于管理，代码是代码，jar是jar包，在不同的directory下，就像MVC结构清晰简单。下载maven并配置完以后，大家最好给maven目录的conf目录中的settings.xml修改一下，我修改的如下：

做这个修改的原因是下载jar速度太慢，所以我使用了阿里的镜像，去阿里云下载，当然上面还有proxy，大家可以去设置proxy也会变快，一般在公司，大家都会修改后者，便于监控工作人员下载了什么东西，不修改镜像的话下载的是在github上托管的jar，这些服务器在国外，所以这是有必要修改settings.xml的原因。

设置好maven以后，看看maven能不能用：以管理员身份(我的电脑必须以管理员身份打开，才能使用java、scala等命令，个人不一样)打开cmd，看到这些信息，就知道maven可以使用了。大家不要慌，讲道理我第一眼看到这么多error就傻了，其实仔细看看，没有什么！

基本的语言环境和maven配置好了，现在就去spark官网http://spark.apache.org/downloads.html下载spark，我选择是spark-2.1.0-bin-hadoop2.7最新版本。解压以后，和之前一样配置好环境变量，那么现在就可以在cmd中开启我们的spark了：

这个时候看cmd上显示的log，会发现有很多东西在显示，我们去spark的conf中修改一下log输出的级别：

如蓝色所示，复制log4j.properties.template文件，变为log4j.properties并将级别变为ERROR，由于显示error:not found:spark import spark.sql，在系统这个盘(我的是C盘)的根目录下，发现有一个tmp目录，将这个目录权限修改为rwx，还要指定HADOOP_HOME的环境变量：即下载对应版本的hadoop的winutils(这个.exe文件相当于指定我们的运行环境是window，解决诸如环境变量读取等等问题，举一个最简单的例子：如linux下变量是$美元符，而其实window的转义符是%X%，X对应环境变量名字)，链接是https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin，个人user变量是HADOOP_HOME,系统变量则在path后加上%HADOOP_HOME%\bin，值得提出的是直接在path后面加全路径，是不能识别的这个运行环境的，这个configuration应该写死了，除非去修改。再次输入spark-shell，看看log：

再没有之前那么多log，也没有那么多错误了，我已经修改过这个目录所有用户的权限到rwx了，并将tmp移至winutils.exe同级目录下，还是显示我的spark.sql有问题，还好这个问题不是那么关键，我们暂时不用spark.hive，那么稍后去解决。那么我们来搭建一下spark的开发环境，并写下我们的第一个程序，决定我们的window版standalone的spark能不能跑程序(毕竟只有程序能跑才说明我们成功了)，实践是检查理论的唯一标准。每一步过程如下：

1、选择样板

2、工程名

3、指定之前我们设定好的maven的settings.xml，和jar下载以后存储的路径

接下来一路next就行，直到进入工程。

在File下选择Project Structure，在libraries加一下scala的SDK。接着我们import一下pom.xml即可开发scala文件了。pom.xml修改(参考官方maven的配置，链接是http://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22)如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>nju_mc.test</groupId>
  <artifactId>nju_mc</artifactId>
  <version>1.0-SNAPSHOT</version>
  <inceptionYear>2008</inceptionYear>

  <properties>
    <scala.version>2.11.8</scala.version>
    <scala.binary.version>2.11</scala.binary.version>
    <spark.community.version>2.1.0</spark.community.version>

    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <project.reproting.outputEncoding>UTF-8</project.reproting.outputEncoding>
    <java.version>1.8</java.version>

  </properties>



  <repositories>
    <repository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </repository>
  </repositories>

  <pluginRepositories>
    <pluginRepository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url