Hive实操
一、数据仓库和数据库
数仓和数据库的区别
- 数据仓库主要特征:
- 面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant )
数据仓库 | 数据库 |
---|---|
面向事务的设计 | 面向主题设计的 |
存储业务数据 | 存储历史数据 |
为捕获数据而设计 | 为分析数据而设计 |
尽量避免冗余,一般针对某一业务应用进行设计 | 引入冗余,依照分析需求,分析维度、分析指标进行设计 |
数仓的分层架构
分层实现
源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,
不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做
准备。
数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干
净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。
数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析
需求而计算生成的数据。
ETL和ELT
二、数据库操作
- 创建库
CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION position];
- 删除库
DROP DATABASE db_name [CASCADE];
- 数据库和HDFS的关系
- 更多具体指令
数据库常用操作语句总结
三、数据表操作
表语法和数据类型
创建数据库表语法
数据类型
内部表和外部表的区别
hive的默认分隔符
hive快速映射表
数据加载与导出
数据加载-LOAD语法
- 如果不加local的话,会默认加载到HDFS中