本节目标
- 了解Hive的作用和优势
- 了解Hive的基本架构
- 了解Hive的数据类型
- 了解Hive的数据库和表操作
- 理解Hive的数据分区
- 理解Hive的数据分桶
4.1 数据仓库
4.1.1 为什么要有数据仓库
在引入数据仓库之前,我们先来聊聊为什么回产生数据仓库?
数据的作用有两个:操作型记录的保存和分析型决策的制定
- 操作型记录的保存意味着企业通常不必维护历史数据,只需要修改数据以反映最新的状态;
- 分析型决策意味着企业需要保存历史的数据,从而可以更精准的来评估现有状况进行决策;
基于后者分析型决策的优化,需要高性能地完成用户的查询,因此引出了数据仓库的概念。
4.1.2 数据仓库概念
数据仓库是一个面向主题、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合,数据仓库中包含了粒度化的企业数据。
数据仓库的主要特征是: 主题性 、 集成性 、 非易失性 、 时变性 。
数据仓库处理数据的流程:分析需求
,确认数据源
,ETL处理
,汇总/整合
,数据建模
,分析展现