一、主要步骤
1、确定主题
确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况.
主题要体现出某一方面的各个分析维度和统计量度之间的关系.
2、确定度量
度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值
3、确定分析粒度
采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值
4、确定维度表
分析主题的各个维度.eg:主题:分析某年某月某地区的各种啤酒销售情况.
则维度应该有时间维 , 地域维 , 产品维 .基于不同维度,可以看到各种不同维度的度量值.
5、确定事实表
将原始数据表和各个维度表进行关联,生成事实表.
注意:考虑到数据源存在脏数据,在关联时候应该使用外连接.将各个维度的代理键存放到事实表中.另外,度量值将由粒度对源数据进行聚合来得到.
二、数据仓库的四个特点
1、面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉
2、集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作
3、随时间变化:关键数据隐式或显式的基于时间变化
4、数据仓库的数据是不可更新的:
数据装入以后一般只进行查询操作,没有传统数据库的增删改操作。
数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,
以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。
分析:根据个人以及查看相关的资料也可以总结两大特点:
1、数据量:数据量特别的庞大
2、及时性:数据是实时变化的,而不是离线数据
三、二者之间的对比
名称 | 数据库 | 数据仓库 |
概念 | 用来存放数据的仓库 | 逻辑概念上与数据库基本一致,都是用数据库软件来管理数据的 |
表维度 | 二维 | 多维 |
作用 | 主要是数据查询 | 主要是数据挖掘、数据分析、管理决策 |
PS:
1、业务数据库中的数据结构是为了完成交易而设计的,不是为了而查询和分析的便利设计的。
2、业务数据库大多是读写优化的,即又要读(查看商品信息),也要写(产生订单,完成支付)。
四、常见的数据库与数据仓库
数据库 比较流行的有:MySQL, Oracle, SqlServer等
数据仓库 比较流行的有:AWS Redshift, Greenplum, Hive等
总结:
企业级数据仓库/数据集市
企业级数据仓库:突出大而全,不论是细致数据和聚合数据它全都有,设计时使用事实星座模式.
数据集市:可以看做是企业级数据仓库的一个子集,它是针对某一方面的数据设计的数据仓库,例如为公司的支付业务设计一个单独的数据集市。由于数据集市没有进行企业级的设计和规划,所以长期来看,它本身的集成将会极其复杂。其数据来源有两种,一种是直接从原生数据源得到,另一种是从企业数据仓库得到。