Hive与传统的数据库

本文对比了Hive与传统数据库的差异,包括Schema on Read与Schema on Write的概念,更新、事务和索引的处理方式。此外,还讨论了HiveQL与SQL的异同,并提到了其他SQL-on-Hadoop解决方案如Impala、Spark SQL等。
摘要由CSDN通过智能技术生成

1. Hive vs. 传统的数据库

Hive与传统的关系型数据库有很多类似的地方,例如对SQL的支持。但是其基于HDFS与MapReduce的事实使得它与传统的数据库在很多方面有很大的不同,在一些特性的支持下也受到底层架构的限制,但是这些限制随着版本迭代正在不断被消除,使得Hive看起来越来越像传统的数据库。

1.1 Schema on Read vs. Schema on Write

在传统的数据库中,数据在写入时就受到表模式(schema)的约束,如果写入的数据不符合模式,则会被拒绝。这种设计被称为Schema on Write,因为数据在写入的时候被校验。

Hive则不同,在写入数据的时候不会对数据做验证,而是在读数据的时候做验证,这称为Schema on Read。

这两种方式有很多权衡的地方。读时模式在数据载入的时候非常快,因为不需要对数据进行读取-解析-序列化为数据库内部的格式。载入操作只是简单的文件拷贝和移动。读时模式也更加灵活,对数据使用目的或者分析方式不同的两个人,对模式的需求也可能是不一样。例如对于年份这样的字段,如果只是想统计每年的销售额,可能字符串就能够符合要求。但是如果想对年份做一些比较或者时间计算,则需要使用Date之类的数据类型。把模式的定义交给具体使用数据的人来完成,是有很大的灵活性的。

而写时模式的查询效率则更高,因为数据库可以针对字段创建索引或者压缩。缺点是载入数据到数据库中需要比较长的时间。另外有很多场景下,在写入数据的时候是不知道应该使用什么模式的,也不能针对性地创建索引。这种情况下,Hive是一个很好的选择。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值