一、前置准备
CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive
想要完成本期视频中所有操作,需要以下准备:
二、简单了解
Hive版本及其对应的兼容Spark版本的列表
2.1 手动编译Spark
Spark下载地址:https://archive.apache.org/dist/spark/spark-2.0.0/
源码包只有12M,下载完成后解压并进行编译(去hive模块)
# 解压
[xiaokang@hadoop ~]$ tar -zxvf spark-2.0.0.tgz
# 在spark-2.0.0主目录下进行编译
[xiaokang@hadoop01 spark-2.0.0]$ ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"
2.2 编译好的gz包
链接:https://pan.baidu.com/s/15dkf-DMc6CB0-oifQUy9OA
提取码:6y4e
三、更换Spark引擎
3.1 hive-site.xml
在原有的配置基础上增加以下配置:
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<property>
<name>hive.enable.spark.execution.engine</name>
<value>true