Hive--构建数据仓库的工具
为什么会出现Hive(Why?)
话是这么说的: “懒人推动科技的发展”. Hive的出现都是因为人懒了, 回顾MapReduce开发应用程序时, 需要写大量的代码. 然后就有人不想写这复杂的代码, Hive就被开发出来了. 通过编写SQL语句让Hive自动解析SQL, 然后经过一系列操作之后转换成MapReduce应用, 从而实现需求. 也就是说, Hive的出现目的就是把复杂的MapReduce代码转化为简单的SQL语句.
其实Hive本身并没有多少东西, Hive只是一个工具, 一个用来构建数据仓库的工具. Hive底层还是基于HDFS和MapReduce来实现功能的.
什么是Hive(What?)
Hive官网: http://hive.apache.org/index.html
官网的定义:
The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
翻译过来大意是:
Apache Hive数据仓库通过使用SQL来读取,编写和管理