BI导论——数据仓库概论

1          书名《Building the Data WareHouse》作者:比尔.恩门

2          目的:将积累的数据变成信息,以建立决策支持系统(DSS)

3          原有的DSS是分裂的,按需抽取的,导致重复与低效

4          原始数据与DSS数据对比与差异

4.1         原始数据

4.1.1    面向应用,来自应用系统

4.1.2    详细的

4.1.3    为日常工作服务

4.2         DSS数据

4.2.1    面向主题,什么是主题?

4.2.2    综合的、提炼的

4.2.3    为管理者服务

5          什么是主题?主题是指决策分析时所重点关注的方面,如对于一个购物中心的DSS系统来说,可以分为车流、客流、销售、会员、财务等主题

 

 

6          数据粒度:是指数据仓库中保存的数据的综合程度的级别(详细程度)

7          数据分割:将数据分割成小的单元进行存储,如按时间、地区、部门等标准进行分割

8          由于DSS分析员无法定义自己的需求,所以需求驱动的方式并不适用,而不预测需求也不行,设计数据仓库通常介于两者之间,即去了解需求又去想象或者创造需求

9          数据模型

9.1         概要模型:描述实体关系

9.2         逻辑模型:描述字段与依赖

9.3         物理模型:就是实际实施后的数据库,主要定义性能与存储方式

10      数据仓库的灵魂在于灵活性和对数据的不可预测的访问的满足上

 

 

11      多维数据模型基于数据仓库而开发是适合的,如果多维数据模型基于生产系统进行开发,将导致大量重复的ETL工作

12      元数据:定义数据的数据,如表的字段定义

13      EIS:高级管理人员信息系统

13.1      为高级管理人员进行决策辅助而设计

13.2      趋势分析与发现

13.3      关键指标度量与跟踪

13.4      探索分析(切片、切块等)

13.5      异常监控

13.6      竞争分析

14      数据仓库的建立

14.1      根据实际情况定义主题

14.2      建立数据模型,该模型描述了企业的信息需求

14.3      分析生产系统(业务系统)的有用数据

14.4      进行ETL开发,将生产系统数据导入数据仓库

15      需求的收集

15.1      与相关业务部门会谈

15.2      报表收集

15.3      战略性规划的了解

15.4      现有系统与业务流程的理解

 

 

16      数据仓库与数据集市

16.1      数据集市来源于数据仓库

16.2      数据集市是部门级的,数据仓库是企业级的

16.3      多维数据模型是数据集市的一种形式

17      构建数据仓库步骤

17.1      确定主题,收集分析要展现的主题,如要分析某年某月某门店的销售情况,这里就可能隐藏着销售主题

17.2      确定度量,根据主题确定度量,如上面的销售主题,销售额就是度量,还有销售数量等等

17.3      确定事实数据粒度,在能确定粒度级别时使用粒度级别,否则尽可能使用较小的粒度级别

17.4      确定维度,从收集的主题中分析维度,如上面的年、月、门店就是一个个的维度

17.4.1 维度的层次结构与级别

17.4.1.1层次结构用来归类维度下的属性,比如时间维度归类为“年-月”、“年-月-日”,“年-周”层次结构

17.4.1.2级别反映的是层次结构下的维度数据的层次顺序,比如“年-月-日”层次结构,第一层为年,第二层为月、第三层为日

17.4.2 渐变维度,随着时间可能发生变化的维度,如住址,手机号等

17.4.3 维度类型

17.4.3.1普通维度(星型模型),与事实直接关联

17.4.3.2引用维度(雪花模型),与事实不直接关联

17.4.3.3父子维度,自引用表

17.4.3.4多对多维度,一个属性值对应多个事实,一个事实对应多个属性值

17.5      创建事实表

 

 

18      传统BI与大数据

18.1      传统BI通过ETL汇总生产系统的数据到数据仓库,再基于数据仓库建立数据集市,然后进行数据集市的开发应用

18.2      大数据,如hadoop等,通过新的数据技术,通过计算机集群存储原始数据,可横向扩展,可进行实时分析

18.3      大数据的优势是强大的储存和计算功能,它解决了超大数据的储存和分析时效问题,可以说大数据是BI的重要补充,因为BI的优势是数据分析与基于算法的数据挖掘



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值