hive3.0使用问题小记

1,使用spark读取hive或者使用hive 命令行查询表,发现列名被默认变成了TableName_FileName

解决办法:

如果通过hive-clinet命令行查询,只想对当前会话生效,执行如下命令即可:

> set hive.resultset.use.unique.column.names=false;

通过 set hive.cli.print.header = true;让查询结果显示表头即可进行验证。

> set hive.cli.print.header = true; 
> select * from tableName limit 10;

如果想让配置对多有查询都生效,需要在hive配置文件hive-site.xml中添加配置,重启hive即可

<property> 
    <name>hive.resultset.use.unique.column.names</name>
    <value>false</value> 
</property>

 

2,HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据数据,准确来说是内表的数据。

原因

hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark3.0及以前版本还不支持hive的ACID功能,因此无法读取ACID表的数据.

Issues地址:https://issues.apache.org/jira/browse/SPARK-15348

 

解决办法:

修改以下参数让新建的表默认不是acid表:

hive.strict.managed.tables=false 
hive.create.as.insert.only=false 
metastore.create.as.acid=false

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hive 3.0相对于Hive 1.0引入了一些重大变化和新功能,以下是Hive 1.0和Hive 3.0之间的一些主要区别: 1. 执行引擎:Hive 1.0使用的是MapReduce作为默认的执行引擎,而Hive 3.0引入了新的执行引擎,称为Hive LLAP(Low Latency Analytical Processing)。Hive LLAP可以提供更低的查询延迟和更高的并发性能。 2. ACID事务支持:Hive 3.0引入了ACID(原子性、一致性、隔离性和持久性)事务支持。这意味着可以在Hive中执行原子性的事务操作,包括插入、更新和删除操作。 3. 命名空间(Namespace)支持:Hive 3.0引入了命名空间的概念,可以更好地组织和管理、视图等对象。命名空间可以帮助避免名称冲突,并提供更好的隔离性。 4. 分区语法变更:Hive 3.0中推荐使用`PARTITIONED BY`关键字来定义分区列,而不再使用`CLUSTERED BY`和`SORTED BY`。这个改变可以提供更灵活和简化的分区语法。 5. 存储格式变更:Hive 3.0默认使用ORC格式作为存储格式,而Hive 1.0默认使用TEXTFILE格式。ORC格式在压缩和查询性能方面通常比TEXTFILE格式更优秀。 6. 优化器和执行计划:Hive 3.0引入了新的优化器和执行计划,可以提供更好的查询性能和优化。 总体而言,Hive 3.0相对于Hive 1.0引入了更多的功能和改进,包括新的执行引擎、ACID事务支持、命名空间支持等。这些变化使得Hive 3.0在性能、功能和可扩展性方面有了显著的提升。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值