数据仓库
数仓架构
-
基础架构
-
Kimball、Inmon
-
数仓是一种规范
-
数仓是一种思想
-
解决方案
-
元数据管理
-
数据质量
-
数据安全
-
生命周期
-
数据模型、数据字典
-
血缘关系 DAG
-
技术元数据、业务元数据
-
权限
-
命名规范
-
开发规范
-
流程规范
-
设计规范
-
总线矩阵
-
主题域/数据域
-
业务调研
-
需求调研
-
数据调研
-
概念模型 CDM
-
逻辑模型 LDM
-
物理模型 PDM
-
BI报表
-
数据应用
-
数据形态
-
数据流向
-
逻辑架构
-
技术架构
-
ods:原始层
-
dwd:基础层
-
dws:聚合层
-
ads:应用层
-
ODS --> DW --> DM(整体架构)
-
ODS --> CDM --> ADS(整体架构)
-
ods --> dwd --> dws --> ads
-
bdl --> fdl --> gdl --> adl
-
离线:hive sqoop mysql azkaban 。。
-
实时:kafka spark/storm/flink hbase 。。
-
Batch recompute
-
Real-time increment
-
Lambda架构
-
数据分层
-
数据调研
-
主题划分
-
数仓规范
-
数据治理
-
数仓理念
-
-
数据模型(Model)
-
类型
-
步骤
-
事实表
-
维表
-
事务事实表
-
周期快照事实表
-
累积快照事实表
-
一致性维度
-
维度退化
-
缓慢变化维
-
星型模型
-
雪花模型
-
星座模型
-
选择业务过程
-
声明粒度
-
标识维度
-
确定事实
-
Erwin
-
PowerDesigner
-
Visio
-
Excel
-
建模工具
-
维度建模
-
实体关系(ER)建模
-
DataVault建模
-
-
数据处理(ETL)
-
增量表
-
全量表
-
快照表
-
流水表
-
拉链表
-
生命状态
-
周期时间
-
有效 active
-
失效 expired
-
历史 history
-
记录数据生命周期
-
利弊
-
SQL
-
Python
-
Shell
-
Procedure
-
OLTP很少有复杂的SQL,数据仓库OLAP下有很多复杂的SQL
-
join
-
标量/嵌套子查询
-
分析函数
-
正则表达式
-
递归with
-
多维分析
排列组合 -
行列互转
-
json处理
-
执行计划
-
类型
-
left join,right join,inner join ..
-
聚集分析函数
-
排名分析函数
-
数学分析函数
-
行比较分析函数
-
regexp_like
-
regexp_substr
-
regexp_instr
-
regexp_replace
-
start with connect by level
-
with rollup
-
with cube
-
grouping sets
-
lateral view explode(split(parm,';')) 别名 as 字段名
-
concat_ws(",",collect_set(要转成行的列)) group by 分组列
-
split切分+explode(炸开)
-
explode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。
-
侧视图的意义是配合explode(或者其他的UDTF),一个语句生成把单行数据拆解成多行后的数据结果集。
-
LATERAL VIEW explode(split(id,','))相当于一个虚拟表,与原表笛卡尔积关联。
也可以多重使用 -
lateral_view
-
explode(split
-
列换行
-
行转列
-
行转列
-
lateral view json_tuple(
-
get_json_object
-
json_tuple
-
DQL
-
DDL
-
DML
-
DCL
-
SQL基础
-
SQL规范
-
SQL优化
-
PL/SQL
-
Kettle
-
DataStage
-
informatica
-
Sqoop
-
DataX
-
爬虫
-
原理
-
参数
-
调优
-
实践
-
利弊
-
ETL工具
-
开发语言
-
加载策略
-
-
数据可视化/BI
-
拖拽式自由BI报表
-
可自行开发
-
分类
-
多维分析 cube
-
kylin
-
ROLAP(关系)
-
MOLAP(多维)
-
HROLAP(混合)
-
roll up(上卷)
-
drill down(下钻)
-
slice(切片)
-
dice(切块)
-
pivot(旋转)
-
传统工具
-
互联网
-
Cognos
-
BIEE
-
MSTR
-
BO
-
FineBI
-
Tableau
-
SmartBI
-
Cboard
-
Quick BI
-
固定报表
-
即席查询
-
OLAP
-
自助式BI
-
实时大屏
-
-
调度系统
-
任务报错
-
数据质量
-
Azakaban
-
Oozie
-
Zeus
-
Automation
-
crontab
-
Oracle job
-
mysql event
-
调度工具
-
任务依赖
-
ETL流程
-
调度日志
-
监控告警
-
-
数据治理
-
血缘关系
-
技术元数据
-
业务元数据
-
元数据管理
-
数据质量
-
数据安全
-