Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。在Hadoop中用来处理结构化数据。Hive查询语言采用Hive为MapReduce处理结构化数据。Hive不是实时查询语言。
一、数据仓库概念:
面向主题的,集成的,相对稳定的,反映历史变化的数据集和,用于支持管理决策。
根本目的:
数据仓库的管理和应用
数据仓库和数据库的区别:数据仓库的数据是稳定的,只读的,数据仓库存储历史数据,数据库只能保留某个时刻的特性,而数据仓库则保留了所有的历史数据。(用于帮助企业分析、决策)
传统数据仓库面临的挑战:1、面对实时海量数据,无法满足快速增长的海量数据存储要求2、无法有效处理不同类型数据3、计算和处理能力不足
二、Hive
基于hadoop平台的一个数据仓库工具,底层hadoop平台之上。
Hive本身不支持数据的存储和处理,但它给用户提供了一个编程接口,类似于SQL
借助HDFS存储数据