本文适合初学者学习
- 数据仓库
- Hive介绍
- Hive安装
数据仓库
数据仓库建立
数据仓库是面向主题的数据库
-
OLTP应用
面向事务 -
OLAP应用
面向查询
数据仓库数据模型
- 星型模型(主题固定)
主题:商品推荐
相关:客户、促销、订单、厂家、物流 - 雪花模型(主题发散)
主题:客户推荐
相关:家庭、教育背景、住址
以家庭为主题相关:xxx
以教育背景为主题相关:xxx
以住址为主题相关:xxx
Hive
- Hive是建立在HDFS上的数据仓库
- Hive可以对数据ETL
- Hive定义类SQL查询语句,靠HQL解析引擎转成MR-Job在Hadoop上执行
- Hive的表其实就是HDFS的目录/文件
Hive元素据
metaStore:包括表名、列名、分区名、表属性、数据所在目录