数据仓库:面向主题、集成的(多数据源)、随时间变化的、数据不可更新
ETL:数据的抽取、转换、加载(①全量:load; ②增量:merge)
元数据管理:
①记录模型的定义、各层间的映射关系;
②监控数仓数据状态及ETL任务运行状态
数仓分层
源数据层→数据仓库层→通用模型层→数据集市层→数据应用层
数据中台:数据仓库+数据服务中间件。可复用性。
数据挖掘:从数仓中挖掘出对决策有用的信息。
OLAP:联机分析处理,支持批量复杂的处理
OLTP:联机事务处理,事务性高,支持在线高可用系统,小事务小查询为主
CUBE基本操作
Cube 是一个开源的基于 MongoDB 的数据分析工具
钻取(drill-down):从汇总到明细
上卷(roll-up):从明细到汇总
切片(Slice)/切块(Dice):相当于where