Hive与传统数据仓库的比较_hadoop的数据仓库组件hive和传统的数据仓库管理软件oracle、db2性能指数差不多类-CSDN博客

本文链接：https://blog.csdn.net/Nicky_1218/article/details/122217752

知识的整理。

	Hive	数据仓库
存储	HDFS，理论上有无限拓展的可能。	集群存储，存在容量上线。伴随容量上升，分析性能下降，只能适用于数据量比较小的商业应用，对于超大规模的数据无能为力。
执行引擎	依赖于MapReduce框架，可进行的各类优化比较少，但是比较简单。	可以执行更加高效的算法，也可以进行更多的优化措施来提高速度。
使用方法	HQL	SQL
索引	低效，目前尚不完善。	高效。
灵活性	元数据存储于独立的数据存储之外，从而解耦合元数据和数据，同样的数据，不同的用户可以有不同的元数据，可以进行不同的操作。	低，数据用途单一。
分析速度	计算依赖于MapReduce和集群规模，易于拓展，在大数据量的情况下，远远快于普通数据仓库。	在数据容量较小时非常快捷，数据量比较大时，新歌能急剧下降。
易用性	需要自行开发应用模型，灵活性高，但是易用性较低。	继承一整套成熟的报表解决方案，可以较为方便的进行数据的分析。
可靠性	数据存储在HDFS,可靠性高，容错性高。	可靠性低。一次查询失败需要重新开始。数据容错依赖于硬件Raid。
依赖环境	依赖硬件较低，可适应一般的普通机器。	依赖于高性能的商业服务器。
价格	开源。	商业比较贵。开源比较低。