Hive更换Spark引擎

本文档详细介绍了如何在已有的Hadoop和Hive环境中,更换Hive的执行引擎为Spark。首先,介绍了所需的前置准备,包括系统环境和相关软件版本。接着,通过手动编译或下载编译好的Sparkgz包进行准备。然后,逐步讲解了更改hive-site.xml、配置spark-env.sh、更新slaves文件、拷贝jar包和xml文件、上传至HDFS以及启动HA-Spark集群等关键步骤。最后,通过DBeaverEE进行SQL测试以验证更换引擎的成功。
摘要由CSDN通过智能技术生成

一、前置准备

CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive

想要完成本期视频中所有操作,需要以下准备:

Hadoop单机伪分布式-视频教程

Hadoop完全分布式集群环境搭建-视频教程

HA(高可用)-Hadoop集群环境搭建视频+图文教程

Linux下Hive的安装

DBeaverEE连接Hive-2.3.6-视频教程

HA-Spark集群环境搭建(Standalone模式)-视频教程

二、简单了解

Hive版本及其对应的兼容Spark版本的列表

2.1 手动编译Spark

Spark下载地址:https://archive.apache.org/dist/spark/spark-2.0.0/

源码包只有12M,下载完成后解压并进行编译(去hive模块)

# 解压
[xiaokang@hadoop ~]$ tar -zxvf spark-2.0.0.tgz
# 在spark-2.0.0主目录下进行编译
[xiaokang@hadoop01 spark-2.0.0]$ ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

2.2 编译好的gz包

链接:https://pan.baidu.com/s/15dkf-DMc6CB0-oifQUy9OA
提取码:6y4e

三、更换Spark引擎

3.1 hive-site.xml

在原有的配置基础上增加以下配置:

 <property>
    <name>hive.execution.engine</name>
    <value>spark</value>
  </property>
  <property>
    <name>hive.enable.spark.execution.engine</name>
    <value>true
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值