1. Hive vs. 传统的数据库
Hive与传统的关系型数据库有很多类似的地方,例如对SQL的支持。但是其基于HDFS与MapReduce的事实使得它与传统的数据库在很多方面有很大的不同,在一些特性的支持下也受到底层架构的限制,但是这些限制随着版本迭代正在不断被消除,使得Hive看起来越来越像传统的数据库。
1.1 Schema on Read vs. Schema on Write
在传统的数据库中,数据在写入时就受到表模式(schema)的约束,如果写入的数据不符合模式,则会被拒绝。这种设计被称为Schema on Write,因为数据在写入的时候被校验。
Hive则不同,在写入数据的时候不会对数据做验证,而是在读数据的时候做验证,这称为Schema on Read。
这两种方式有很多权衡的地方。读时模式在数据载入的时候非常快,因为不需要对数据进行读取-解析-序列化为数据库内部的格式。载入操作只是简单的文件拷贝和移动。读时模式也更加灵活,对数据使用目的或者分析方式不同的两个人,对模式的需求也可能是不一样。例如对于年份这样的字段,如果只是想统计每年的销售额,可能字符串就能够符合要求。但是如果想对年份做一些比较或者时间计算,则需要使用Date之类的数据类型。把模式的定义交给具体使用数据的人来完成,是有很大的灵活性的。
而写时模式的查询效率则更高,因为数据库可以针对字段创建索引或者压缩。缺点是载入数据到数据库中需要比较长的时间。另外有很多场景下,在写入数据的时候是不知道应该使用什么模式的,也不能针对性地创建索引。这种情况下,Hive是一个很好的选择。