1,使用spark读取hive或者使用hive 命令行查询表,发现列名被默认变成了TableName_FileName
解决办法:
如果通过hive-clinet命令行查询,只想对当前会话生效,执行如下命令即可:
> set hive.resultset.use.unique.column.names=false;
通过 set hive.cli.print.header = true;让查询结果显示表头即可进行验证。
> set hive.cli.print.header = true;
> select * from tableName limit 10;
如果想让配置对多有查询都生效,需要在hive配置文件hive-site.xml中添加配置,重启hive即可
<property>
<name>hive.resultset.use.unique.column.names</name>
<value>false</value>
</property>
2,HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据数据,准确来说是内表的数据。
原因
hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark3.0及以前版本还不支持hive的ACID功能,因此无法读取ACID表的数据.
Issues地址:https://issues.apache.org/jira/browse/SPARK-15348
解决办法:
修改以下参数让新建的表默认不是acid表:
hive.strict.managed.tables=false
hive.create.as.insert.only=false
metastore.create.as.acid=false