Spark源码编译及使用

最新推荐文章于 2024-07-01 14:10:48 发布

yoyocheknow

最新推荐文章于 2024-07-01 14:10:48 发布

阅读量9.7k

点赞数 3

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/u011521382/article/details/81741119

版权

本文详细介绍了如何从源码编译Spark，并结合Hadoop进行使用。包括下载Spark源码、安装Maven、Scala环境，修改pom.xml文件，设置编译环境变量，解决编译过程中的内存问题，以及编译完成后使用make-distribution.sh脚本创建Spark安装包。文章还提到了以local模式和standalone模式启动Spark，并展示了启动后的UI界面和简单的Spark Shell操作，包括wordcount示例。

摘要由CSDN通过智能技术生成

这一篇我们来把Spark环境搭建起来。我们使用编译源码的方式来生成Spark的安装包，为什么不直接用官方的安装包呢？因为我们在使用spark的时候会结合Hadoop来使用，有自己的需求，所以我们使用源码来编译。

首先去官网上来下载源码。

这里写图片描述

我们选择2.1.0版本。然后解压。spark源码使用maven构建的，所以在编译之前我们最好下载一个maven，maven版本至少在3.3.9至少，另外Java 版本要在7+之上。spark由Scala编写，所以还要下载Scala环境。
解压后我们发现Spark根目录有一个pom.xml文件，我们就在这个目录之前编译的命令即可，因为我们要结合Hadoop使用，所以在pom.xml中加入Hadoop使用到的jar包。我们在repositories标签下加入Hadoop的仓库位置，便于下载jar包。

<repositories>
  <repository>
     <id>central</id>
      <!-- This should be at top, it makes maven try the central repo first and then others and hence faster dep resolution -->
      <name>Maven Repository</name>
      <url>https://repo1.maven.org/maven2</url>
      <releases>
        <enabled>true</enabled>
      </releases>
      <snapshots>
        <enabled>