1. 数据仓库需求分析
1.1主题分析:确定主题
用户从哪些角度来分析数据:主题(比如销售主体)、指标、维度、粒度
1.2数据分析:了解数据情况,是否可以支撑主题
数据源分析:数据源的数据表的关系,数据表的内容
数据量分析:记录和字段的量进行一个统计分析
数据质量分析:正确性分析、一致性分析、规范性分析
1.3环境要求分析
服务器 网络 接口 软件等
2. 数据仓库建模:数据仓库逻辑模型
采用多维数据模型--数据立方体:满足从多角度、多层次进行数据分析和查询
2.1 多维数据模型概念
存储:多维结构文件,并有相应的元数据与数据相对应
粒度:广东省,广东省深圳市、广东省深圳市南山区 三个从小到大的粒度
维度:比如随时间看销售数据,这里就是时间维,从地区看销售数据,这里就是地区维
人 车 设备 卡 套餐 商户 六大综合维表,还有时间,地区等维度
维度属性和维度成员:时间维包含年、月、季度、日期等成员
维层次(概念分层):南山区---深圳市---广东省---中国
度量与事实:比如销售额、销售量,存在事实数据表中
2.2 多维数据模型实现
关系数据库:维表,事实表
多维数据库:如Excel,第一行和第一列都是维,其他的都是度量数据
2.2.1 主题的内容描述
主题的公共键(主键或者唯一标识)、主题之间的联系和各主题的属性
2.2.2 常见的基于关系型数据库的多维数据模型:
星型模式
雪花模式
事实星座模式
3. 数据仓库的物理模型设计
引入冗余
分区、分桶
增加索引
人、车、设备(静态设备表、动态设备表)、卡(静态卡表,动态卡表)、商户、套餐 、时间、地区 10张维表
唯一键标识,并给唯一标识创建索引
把所有的维表通过唯一键标识关联成一张事实索引表
这样就可以以不变应万变,适应任何业务
比如盗抢险:
整合盗抢险数据
然后通过盗抢险关联的设备和时间标识到事实索引表中就可以找到相关的所有数据
定义好每张表的描述信息和更新周期以及机制
参考资料:《数据仓库与数据挖掘实践》电子工业出版社,李春葆等人编著