Hive on Spark

最新推荐文章于 2024-07-22 09:43:21 发布

ggnff

最新推荐文章于 2024-07-22 09:43:21 发布

阅读量273

点赞数

文章标签： spark hive hadoop 大数据

本文链接：https://blog.csdn.net/ggnff/article/details/118947236

版权

Hive on Spark

Hive 安装可参考https://blog.csdn.net/ggnff/article/details/118944977
Spark安装可参考https://blog.csdn.net/ggnff/article/details/118946730
本次使用的Hive版本为Hive-3.1.2,Spark版本为Spark-3.0.0，这两个版本并不兼容，但在Hive安装文章里百度网盘提供的安装包是已经编译好的，可以直接使用，并且spark也提供无hadoop依赖的纯净包，需要可以自行下载；

1.创建spark配置文件

vim /opt/module/hive/conf/spark-defaults.conf

在这里插入图片描述

spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/spark-history
spark.executor.memory 1g
spark.driver.memory 1g

2.在hdfs创建spark存储日志文件的目录，必须和上面配置的名称一样

 hdfs dfs -mkdir /spark-history

3.上传spark纯净jar包到/opt/software/并解压

tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz

4.上传jar包到hdfs

hadoop fs -mkdir /spark-jars
hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars

确保jar包上传无误
在这里插入图片描述

5.修改hive-site.xml文件

vim /opt/module/hive/conf/hive-site.xml

<property>
 <name>spark.yarn.jars</name>
 <!--注意主机名和hdfs存放jar包的文件夹要设为自己配置的名称-->
 <value>hdfs://hadoop102:8020/spark-jars/*</value>
</property>
<!--Hive 执行引擎-->
<property>
 <name>hive.execution.engine</name>
 <value>spark</value>
</property>
<!--Hive 和 Spark 连接超时时间-->
<property>
 <name>hive.spark.client.connect.timeout</name>
 <value>10000ms</value>
</property>

6.重启hive

cd /opt/module/hive/
bin/hive

测试：

create table table1(id int, name string);
 insert into table table1 values(1,'abc');

第一次运行任务需要多等待一会
在这里插入图片描述
出现上图则配置完成。

ggnff

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive on Spark

Hive on SparkHive 安装可参考https://blog.csdn.net/ggnff/article/details/118944977Spark安装可参考https://blog.csdn.net/ggnff/article/details/118946730本次使用的Hive版本为Hive-3.1.2,Spark版本为Spark-3.0.0，这两个版本并不兼容，但在Hive安装文章里百度网盘提供的安装包是已经编译好的，可以直接使用，并且spark也提供无hadoop依赖的纯净包，需
复制链接

扫一扫