从 Spark 官网上下载的 Spark 官网上下载的安装包,默认不支持 Hive,因此要是想在 Spark SQL 上查询操作 Hive 上的数据,需要重新编译 Spark 源码,本文 Spark 的版本为 Spark-2.1.2-bin-hadoop2.6.0;Hadoop 的版本为 Hadoop-2.6.0-cdh5.7.0;Hive 的版本为 Hive-1.1.0-cdh5.7.0,下面介绍 Spark 的编译及安装。
环境准备
# java 版本
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)
# maven 版本必须是3.3.9或以上
Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)
Maven home: /Users/caipei01/maven3
Java version: 1.8.0_171, vendor: Oracle Corporation
Java home: /Library/Java/JavaVirtualMachines/jdk1.8.0_171.jdk/Contents/Home/jre
Default locale: zh_CN, platform encoding: UTF-8
OS name: "mac os x", version: "10.14.3", arch: "x86_64", family: "mac"
Spark 源码编译
# 下载源码
wget htt