HiveOnSpark

最新推荐文章于 2024-07-22 09:43:21 发布

asd623444055

最新推荐文章于 2024-07-22 09:43:21 发布

阅读量564

点赞数

文章标签： hive spark 大数据

本文链接：https://blog.csdn.net/asd623444055/article/details/124686878

版权

本文详细介绍了如何进行Hive版本升级，重点讲解了Hive on Spark的编译过程，包括从Spark源码下载到编译完成。接着，文章阐述了Hive on Spark的配置步骤，包括环境变量设置、Spark与Hive的整合以及HDFS路径和依赖的处理。在测试部分，通过创建测试表和执行求π任务展示了Hive on Spark的功能。最后，讨论了Yarn容量调度器队列配置，增加了hive队列并指导如何将hive客户端任务提交到该队列。

摘要由CSDN通过智能技术生成

链接：https://pan.baidu.com/s/1LgvdPWQ-VNMlRc2qV4EcRg?pwd=i8n8
提取码：i8n8

1.Hive版本升级

1）上传编译后的apache-hive-3.1.2-bin.tar至集群

2）解压apache-hive-3.1.2-bin.tar.gz

tar -zxf apache-hive-3.1.2-bin.tar.gz -C /opt/module/

3）将原有的hive进行重命名

 mv hive/ hive_bak

4）将新安装的apache-hive-3.1.2-bin重命名为hive

mv apache-hive-3.1.2-bin/ hive

5）将hive_bak中的配置文件拷贝到hive中

cp /opt/module/hive_bak/conf/hive-site.xml /opt/module/hive/conf/

6）将hive_bak/lib目录下的MySQL驱动拷贝至hive/lib下

cp /opt/module/hive_bak/lib/mysql-connector-java-5.1.48.jar /opt/module/hive/lib/

2.Hive on Spark编译

1）从官网下载Spark源码并解压

下载地址: https://www.apache.org/dyn/closer.lua/spark/spark-2.4.5/spark-2.4.5.tgz

2）上传并解压spark

3）进入spark解压后的目录

4）执行编译命令

spark-2.4.5]$ ./dev/make-distribution.sh --name without-hive --tgz -Pyarn -Phadoop-3.1 -Dhadoop.version=3.1.3 -Pparquet-provided -Porc-provided -Phadoop-provided

5）等待编译完成，spark-2.4.5-bin-without-hive.tgz为最终文件

3.Hive on Spark配置

1）解压spark-2.4.5-bin-without-hive.tgz

 software]$ tar -zxf /opt/software/spark-2.4.5-bin-without-hive.tgz -C /opt/module

 software]$ mv /opt/module/spark-2.4.5-bin-without-hive /opt/module/spark