前言
大数据生态各个组件之间存在兼容性问题,假如您想从事大数据开发相关工作,那么后续很有可能会做离线数仓的项目,而在搭建数仓环境时会用到spark,听不懂没关系,学了就知道了,此处只是简单说明为何直接用这个版本的安装包,到时你就会发现不用重新再安装一遍hive了。
一、为何需要这个安装包?
后续在做sgg离线数仓项目时,需要搭建Hive on Spark 配置环境。而官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark版本是 2.4.5,所以我们需要重新编译 Hive3.1.2 版本,使其支持Spark3.0.0。当然具体操作步骤需要下载hive源码,重新编译打包,不过此处已经编译好了,直接使用即可。
二、使用步骤
1.下载下方重新编译过的安装包。
其实是项目中的资料,只不过我把它单独下载下来了,所以大家可以放心使用。
链接:https://pan.baidu.com/s/1vYeXjbGes4LoWk7QPyrz2Q
提取码:hive
2.替换新的安装包后,后续继续解压安装即可。
3.安装好后可按如下命令查看hive兼容的spark
首先进入hive安装目录
cd /opt/module/hive/lib
执行如下查看命令
ls -al | grep spark
若看到如下依赖为3.0.0就说明此时hive已经支持spark3.0.0了。