数仓的概念:
******DW表的类型******
实体表:用于描述实体特性
事实表:全是数字度量,不包含描述
维度表:用于分析
******DW建模******
业务建模:从企业层面划分业务单元,确定业务单元内的业务流程,确定DW项目目标和阶段。
领域概念建模:抽取关键概念,概念分组,概念细化和关联。
逻辑建模:领域概念实体化并将其数据集成为实体表,概念之间事件作为事件表,确定分析维度作为维度表。根据数据冗余需要选择星型或者雪花型数据模型。
物理建模:写ETL脚本
******DW建设步骤******
数据和业务盘点
DW建模
定义数据源、选择DW存储/查询平台和报表工具、分析和可视化、监控工具
平台容量和性能规划
全量数据ETL和增量数据定时调度
******数据分析业务和DW表的关系******
统计分析:用到维度表+事实表/实体表
整体搜索:用到元数据表(类似show tables)确定单库,再用单库搜索找到具体信息
单库搜索:用到实体表/事实表(类似select xxx from xxx where ...)
算法:用到事实表