window10下spark2.1.0单节点环境及开发环境搭建及运行全流程走通

本文介绍了如何在Windows 10上搭建Spark 2.1.0单节点环境,包括安装JDK8、Scala2.11.8,配置Maven,下载并配置Spark,解决运行时的问题,以及建立Spark开发环境。文章还提到了遇到的错误和解决方法,例如设置HADOOP_HOME,修改log4j.properties,以及使用spark-submit运行示例程序。
摘要由CSDN通过智能技术生成

作为一名初入spark编程的初级工程师,在工作中总是会有一些程序需要先在自己的spark环境下试跑,所以需要自己在自己电脑中安装自己的spark运行环境以及开发,方便用于调试,还可以时不时的测试一下API,玩一玩自己随手编的小程序,以便学习,因为开源的东西变化太快,总是需要你不断学习...最近在工作中就有这样的一个需求,而网上也没有最新的资源,抱着和大家分享一起学习的心态,从头到尾咱们来一遍!

首先啥也不说了,安装好JDK8和Scala2.11.8,JDK不得低于1.7,Scala则需要对应好自己选择的Spark的版本。版本选择如下:


大家注意“Note”它明确标识了这是基于scala2.11打包好的程序,如果大家想要使用别的版本scala打包spark,下载sapark源码使用SBT打包即可。

作为standalone单节点spark,不必太复杂,只要能运行spark程序、调试以及学习源码就行,所以一切最简:直接在window10上搭建最简单的spark环境以及开发环境(linux固然好,其实搭建起来也不慢,更可以练手,大家可以去了解),我的语言选择如下:


(偷个懒,去听ASMR了,最近真的累,后续会在明天周末更新完毕,请不要骂我)。

这是基本的语言环境,然后就要配置maven了。去官网下载maven,解压(不要去修改任何东西)以后并配置路径(配置路径相信大家都会,在window环境变量里面配置即可)。为什么下载maven,因为现在开发起来,maven便于管理,代码是代码,jar是jar包,在不同的directory下,就像MVC结构清晰简单。下载maven并配置完以后,大家最好给maven目录的conf目录中的settings.xml修改一下,我修改的如下:


做这个修改的原因是下载jar速度太慢,所以我使用了阿里的镜像,去阿里云下载,当然上面还有proxy,大家可以去设置proxy也会变快,一般在公司,大家都会修改后者,便于监控工作人员下载了什么东西,不修改镜像的话下载的是在github上托管的jar,这些服务器在国外,所以这是有必要修改settings.xml的原因。


设置好maven以后,看看maven能不能用:以管理员身份(我的电脑必须以管理员身份打开,才能使用java、scala等命令,个人不一样)打开cmd,看到这些信息,就知道maven可以使用了。大家不要慌,讲道理我第一眼看到这么多error就傻了,其实仔细看看,没有什么!

  基本的语言环境和maven配置好了,现在就去spark官网http://spark.apache.org/downloads.html下载spark,我选择是spark-2.1.0-bin-hadoop2.7最新版本。解压以后,和之前一样配置好环境变量,那么现在就可以在cmd中开启我们的spark了:

这个时候看cmd上显示的log,会发现有很多东西在显示,我们去spark的conf中修改一下log输出的级别:


如蓝色所示,复制log4j.properties.template文件,变为log4j.properties并将级别变为ERROR,由于显示error:not found:spark import spark.sql,在系统这个盘(我的是C盘)的根目录下,发现有一个tmp目录,将这个目录权限修改为rwx,还要指定HADOOP_HOME的环境变量:即下载对应版本的hadoop的winutils(这个.exe文件相当于指定我们的运行环境是window,解决诸如环境变量读取等等问题,举一个最简单的例子:如linux下变量是$美元符,而其实window的转义符是%X%,X对应环境变量名字),链接是https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin,个人user变量是HADOOP_HOME,系统变量则在path后加上%HADOOP_HOME%\bin,值得提出的是直接在path后面加全路径,是不能识别的这个运行环境的,这个configuration应该写死了,除非去修改。再次输入spark-shell,看看log:


再没有之前那么多log,也没有那么多错误了,我已经修改过这个目录所有用户的权限到rwx了,并将tmp移至winutils.exe同级目录下,还是显示我的spark.sql有问题,还好这个问题不是那么关键,我们暂时不用spark.hive,那么稍后去解决。那么我们来搭建一下spark的开发环境,并写下我们的第一个程序,决定我们的window版standalone的spark能不能跑程序(毕竟只有程序能跑才说明我们成功了),实践是检查理论的唯一标准。每一步过程如下:

1、选择样板


2、工程名


3、指定之前我们设定好的maven的settings.xml,和jar下载以后存储的路径



接下来一路next就行,直到进入工程。


在File下选择Project Structure,在libraries加一下scala的SDK。接着我们import一下pom.xml即可开发scala文件了。pom.xml修改(参考官方maven的配置,链接是http://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22)如下:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>nju_mc.test</groupId>
  <artifactId>nju_mc</artifactId>
  <version>1.0-SNAPSHOT</version>
  <inceptionYear>2008</inceptionYear>

  <properties>
    <scala.version>2.11.8</scala.version>
    <scala.binary.version>2.11</scala.binary.version>
    <spark.community.version>2.1.0</spark.community.version>

    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <project.reproting.outputEncoding>UTF-8</project.reproting.outputEncoding>
    <java.version>1.8</java.version>

  </properties>



  <repositories>
    <repository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url>http://scala-tools.org/repo-releases</url>
    </repository>
  </repositories>

  <pluginRepositories>
    <pluginRepository>
      <id>scala-tools.org</id>
      <name>Scala-Tools Maven2 Repository</name>
      <url
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值