Hive更换Spark引擎

最新推荐文章于 2024-07-31 20:22:54 发布

广彐水厂

最新推荐文章于 2024-07-31 20:22:54 发布

阅读量4.1k

点赞数 2

分类专栏：大数据文章标签： hadoop 大数据 spark hive

本文链接：https://blog.csdn.net/weixin_42341823/article/details/106581919

版权

本文档详细介绍了如何在已有的Hadoop和Hive环境中，更换Hive的执行引擎为Spark。首先，介绍了所需的前置准备，包括系统环境和相关软件版本。接着，通过手动编译或下载编译好的Sparkgz包进行准备。然后，逐步讲解了更改hive-site.xml、配置spark-env.sh、更新slaves文件、拷贝jar包和xml文件、上传至HDFS以及启动HA-Spark集群等关键步骤。最后，通过DBeaverEE进行SQL测试以验证更换引擎的成功。

摘要由CSDN通过智能技术生成

一、前置准备

CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive

想要完成本期视频中所有操作，需要以下准备：

Hadoop单机伪分布式-视频教程

Hadoop完全分布式集群环境搭建-视频教程

HA(高可用)-Hadoop集群环境搭建视频+图文教程

Linux下Hive的安装

DBeaverEE连接Hive-2.3.6-视频教程

HA-Spark集群环境搭建(Standalone模式)-视频教程

二、简单了解

Hive版本及其对应的兼容Spark版本的列表

2.1 手动编译Spark

Spark下载地址：https://archive.apache.org/dist/spark/spark-2.0.0/

源码包只有12M，下载完成后解压并进行编译(去hive模块)

# 解压
[xiaokang@hadoop ~]$ tar -zxvf spark-2.0.0.tgz
# 在spark-2.0.0主目录下进行编译
[xiaokang@hadoop01 spark-2.0.0]$ ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

2.2 编译好的gz包

链接：https://pan.baidu.com/s/15dkf-DMc6CB0-oifQUy9OA
提取码：6y4e

三、更换Spark引擎

3.1 hive-site.xml

在原有的配置基础上增加以下配置：

 <property>
    <name>hive.execution.engine</name>
    <value>spark</value>
  </property>
  <property>
    <name>hive.enable.spark.execution.engine</name>
    <value>true