知识的整理。
Hive | 数据仓库 | |
存储 | HDFS,理论上有无限拓展的可能。 | 集群存储,存在容量上线。伴随容量上升,分析性能下降,只能适用于数据量比较小的商业应用,对于超大规模的数据无能为力。 |
执行引擎 | 依赖于MapReduce框架,可进行的各类优化比较少,但是比较简单。 | 可以执行更加高效的算法,也可以进行更多的优化措施来提高速度。 |
使用方法 | HQL | SQL |
索引 | 低效,目前尚不完善。 | 高效。 |
灵活性 | 元数据存储于独立的数据存储之外,从而解耦合元数据和数据,同样的数据,不同的用户可以有不同的元数据,可以进行不同的操作。 | 低,数据用途单一。 |
分析速度 | 计算依赖于MapReduce和集群规模,易于拓展,在大数据量的情况下,远远快于普通数据仓库。 | 在数据容量较小时非常快捷,数据量比较大时,新歌能急剧下降。 |
易用性 | 需要自行开发应用模型,灵活性高,但是易用性较低。 | 继承一整套成熟的报表解决方案,可以较为方便的进行数据的分析。 |
可靠性 | 数据存储在HDFS,可靠性高,容错性高。 | 可靠性低。一次查询失败需要重新开始。数据容错依赖于硬件Raid。 |
依赖环境 | 依赖硬件较低,可适应一般的普通机器。 | 依赖于高性能的商业服务器。 |
价格 | 开源。 | 商业比较贵。开源比较低。 |