集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:
ambari版本
Version 2.7.4.0
HDP版本
HDP-3.1.4.0
hive版本
3.1.0
spark版本
2.3.0
集群前提条件:
1.Hdp、Spark、Hive都已部署好
2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。
spark集成hive
1.修改spark配置: Advanced spark2-defaults
spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置
/warehouse/tablespace/managed/hive
2.修改spark配置: Advanced spark2-hive-site-overrid
metastore.catalog.default 值 spark 改为 hive
3. 修改hive配置: 到hive组件修改配置
hive.strict.managed.tables 的 true 改为 false