通过Ambari2.7安装好HDP3.1后,发现在spark-sql中无法读到hive命令行创建的数据库和表。
后来查了网上资料,发现hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数据。
然后修改了hive-site.xml配置文件里的相关配置项:
hive.strict.managed.tables=false
hive.create.as.insert.only=false
metastore.create.as.acid=false
重启hive和tez服务,再次进入spark-sql命令行,问题依旧。
然后我在hive命令行和spark-sql命令行分别建库建表插数据,发现相互是查看不到的对方的创建的数据的。于是,我查看了一下spark2配置目录下的hive-site.xml文件,发现问题所在:
配置项 metastore.catalog.default 默认值是spark,即读取SparkSQL自己的metastore_db。所以才会出现上述相互是查看不到的对方的创建的数据的问题。
遂进行修改:
<property>
<name>metastore.catalog.default</name>
<value>hive</value>
</property>
修改完后,spark-sql会去读取hive的metastore,这样就可以实现以spark-sql方式访问Hive SQL方式创建的databases/tables。
重启Spark2,问题解决。
备注:不需要把hive-site.xml覆盖掉spark2配置目录下的同名文件。(修改hive配置文件后,把hive-site.xml覆盖掉spark2配置目录下的同名文件,启动spark-sql,无法启动,报与TEZ相关错误,提示缺包等,该问题解决后,依旧无法解决spark2访问hive数据。因为metastore.catalog.default 配置项在覆盖后的hive-site.xml文件中是不存在的,直接修改默认文件即可。)