Hive是基于Hadoop的一个数据仓库工具,可以将结构化文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
1、简介
对比
常用的数据存储管理:
-
文件
-
数据库,添删改查
大数据环境下数据存储管理:
-
文件---------->HDFS
-
数据库------->HBase(OLTP)添删改,Hive(OLAP)查
出现
出现原因:
-
基于sql的数据管理,要转到Hadoop上
-
Hadoop下的数据库HBase支持行级添删改查,支持单行事务(不支持多行),但不支持sql
特点
模式:
-
传统数据库,写时模式,即数据在写入数据库时对模式进行检查
-
Hive,读时模式,即不在数据加载时进行验证,查询是进行
优点:
-
构建在Hadoop的HDFS和MapReduce上,HDFS存储,MapReduce执行
-
将HiveQL转化为MapReduce作业并运行在集群上
缺点:
-
不支持记录级的添删改
-
不支持事务
<