数据仓库和数据库有所不同,可以看一下它们在数据管理体系中的位置:
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端 。Hive结构图如下:
Hive与Hadoop的关系:
Hive与传统数据库之间的区别: