HIVE ON SPARK 和 SPARK READ HIVE METASTORE
具体hadoop 和 hive单机版本安装请参考单节点搭建hadoop和hive
此文是基与这篇基础上升级而来。
零、版本说明:
本例使用的版本,hive和spark版本对标Cloudera 公司的 cdh6.2.0 版本,hdfs图省事就没对标cdh的3.0.0版本:
hadoop: 2.10.2
hive: 2.1.1
spark: 2.4.0
从官网下载bin的安装包 apache 和 hive ,官网中spark的源码和安装包的版本比较全
hive的版本只有大版本最新的,需要其他版本的要去github上apache/hive仓库找需要版本对应的tag标签找是否有源码包或安装包下载。
官网中:
有bin
的就是编译完整的安装文件,linux环境直接解压tar -xvf *.tar.gz
即可。
spark-2.4.0-bin-without-hadoop.tgz
(一般使用without-hadoop版本) apache-hive-3.1.3-bin.tar.gz
有src
的就是源码了。
修改 hive-site.xml
:
<!--Spark依赖位置(注意:端口号9000/8020必须和namenode的端口号一致)for hive on spark -->
<property>
<name>spark.yarn.jars</name>
<value>hdfs://hdp:9000/spark-jars/*</value>
</property>
<!--Hive执行引擎 for hive on spark -->
<property>