一 实验说明
本实验主要完成Hvie on Spark的配置,主要内容包含maven配置、编译spark源码 spark配置 hive配置,我使用的软件版本如下表所示。
软件 | 版本 |
---|---|
hadoop | 2.7.7 |
Hive | 2.3.7 |
spark | 2.0.0源码包 |
scala | 2.11.12 |
- 注意:本教程只讲解了maven、spark和hive的配置,在开始本教程之前需要自行配置hadoop和scala,我使用的版本已经在第一个表中贴了出来。
- 注意:hive on spark配置有较强的的版本依赖hive与Spark版本兼容表如下。
Hive Version | Spark Version |
---|---|
3.0.X | 2.3.0 |
2.3.X | 2.0.0 |
2.2.X | 1.6.0 |
2.1.X | 1.6.0 |
2.0.X | 1.5.0 |
1.2.X | 1.3.1 |
1.1.X | 1.2.0 |
- 由于源码编译过程时间教程不愿自行编译的可在我的百度云连接自行下载,连接中还包含我配置好的hadoop、hive、spark的conf(配置文件中的“master”是我的主机名大家根据自己的情况进行修改)和maven的settings.xml文件,连接如下。本教程使用的所有jar包和安装包也在连接中。
链接:https://pan.baidu.com/s/1PWnSbuRnc-2lXskvH2RVKg
提取码:xygc
二 配置步骤
一、maven配置
编译spark源码需要使用maven,我们先来配置一下maven环境。
第一步:下载maven安装包
编译spark建议使用maven3环境,下载连接为http://maven.apache.org/download.cgi,点击图中红框中的内容即可下载。
第二步、安装
下载完成后将maven安装包上传到Linux系统,我这里上传到了/usr/local目录下,上传完成后解压并重命名为maven,命令如下所示
[root@master ~]# cd /usr/local
[root@master local]# tar -zxvf apache-maven-3.6.3-bin.tar.gz
[root@master local]# mv apache-maven-3.6.3 maven
第二步、配置maven仓库
修改maven目录下的settings.xml文件 找到对应标签进行修改,内容如下。
<!-- 配置本地仓库地址 -->
<localRepository> E:\software\maven_repository</localRepository>
<!-- 阿里云仓库 -->
<mirror>
<id>nexus-aliyun</id>
<mirrorOf>*</mirrorOf>
<name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
<!-- Java的JDK版本 -->
<profile>
<id>jdk-1.8</id>
<activation>
<activeByDefault>true</activeByDefault>
<jdk>1.8</jdk>
</activation>
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion>
</properties>
</profile>
第三步:配置Maven环境变量
[root@master local]# vim ~/.bashrc
MAVEN_HOME=/usr/local/maven/apache-maven-3.6<