Hive?
Hive是由Facebook开源用于解决海量结构化日志的数据统计 ,它是基于大数据生态圈Hadoop的一个数据仓库工具。 Hive的本质是将SQL转化成MapReduce程序。
Hive基础架构
(1)用户接口
(2)元数据存储
(3)Driver驱动程序
Hive数据仓库
数据处理方式的区别:
OLTP(Online Transaction Processing)联机事务处理:
日常事务处理,关注实时的高并发读写能力
OLAP(Online Analytical Processing)联机分析处理:
复杂分析和决策支持,关注多维查询和大规模数据处理能力
数仓主要特征:
a)面向主题的(Subject-Oriented )
b)集成的(Integrated)
c)非易失的(Non-Volatile)[或(不可更新性)]
d)时变的(Time-Variant )
数据仓库架构:
1)源数据层
2)数据仓库层
3)数据应用层