Hive简介
Apache Hive是一种数据仓库,对查询和管理分布式存储中的超大数据集提供了很大帮助。Hive是基于Hadoop的,提供了以下功能:
- 容易数据提取/转化/加载(ETL)的工具
- 利用各种各样数据格式的结构的机制
- 访问直接存储在HDFS或者其它存储系统(如HBase)上的文件
- 通过MapReduce执行查询
Hive定义了简单的类似SQL的查询语言,被称为QL,该语言使熟悉SQL的使用者可以查询数据。同时,该语言允许熟悉MapReduce的程序员能够插入他们定制的Mapper和Reducer执行更加复杂的分析,这样的分析或许不被QL语言内置的功能所支持。QL还可以通过定制的标量函数(UDF’s),聚集(UDAF’s)和表函数(UDTF’s)进行扩展。
Hive不是被设计用于联机事务处理(OLTP),也不提供实时查询或者行级更新