搭建数据仓库的基本步骤_搭建一个数据仓库代码多吗-CSDN博客

本文链接：https://blog.csdn.net/Jmayday/article/details/102658295

一、主要步骤

1、确定主题
确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况.
主题要体现出某一方面的各个分析维度和统计量度之间的关系.
2、确定度量
度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值
3、确定分析粒度
采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值
4、确定维度表
分析主题的各个维度.eg:主题:分析某年某月某地区的各种啤酒销售情况.
则维度应该有时间维 , 地域维 , 产品维 .基于不同维度,可以看到各种不同维度的度量值.
5、确定事实表
将原始数据表和各个维度表进行关联,生成事实表.
注意:考虑到数据源存在脏数据,在关联时候应该使用外连接.将各个维度的代理键存放到事实表中.另外,度量值将由粒度对源数据进行聚合来得到.

二、数据仓库的四个特点

1、面向主题：数据仓库都是基于某个明确主题，仅需要与该主题相关的数据，其他的无关细节数据将被排除掉
2、集成的：从不同的数据源采集数据到同一个数据源，此过程会有一些ETL操作
3、随时间变化：关键数据隐式或显式的基于时间变化
4、数据仓库的数据是不可更新的：
数据装入以后一般只进行查询操作，没有传统数据库的增删改操作。
数据仓库的数据反映的是一段相当长的时间内历史数据的内容，是不同时点的数据库快照的集合，
以及基于这些快照进行统计、综合和重组的导出数据，而不是联机处理的数据。

分析：根据个人以及查看相关的资料也可以总结两大特点：

1、数据量：数据量特别的庞大

2、及时性：数据是实时变化的，而不是离线数据

三、二者之间的对比

名称	数据库	数据仓库
概念	用来存放数据的仓库	逻辑概念上与数据库基本一致，都是用数据库软件来管理数据的
表维度	二维	多维
作用	主要是数据查询	主要是数据挖掘、数据分析、管理决策

PS:

1、业务数据库中的数据结构是为了完成交易而设计的，不是为了而查询和分析的便利设计的。
2、业务数据库大多是读写优化的，即又要读（查看商品信息），也要写（产生订单，完成支付）。

四、常见的数据库与数据仓库

数据库比较流行的有：MySQL, Oracle, SqlServer等
数据仓库比较流行的有：AWS Redshift, Greenplum, Hive等

总结：

企业级数据仓库/数据集市

企业级数据仓库：突出大而全，不论是细致数据和聚合数据它全都有，设计时使用事实星座模式.

数据集市：可以看做是企业级数据仓库的一个子集，它是针对某一方面的数据设计的数据仓库，例如为公司的支付业务设计一个单独的数据集市。由于数据集市没有进行企业级的设计和规划，所以长期来看，它本身的集成将会极其复杂。其数据来源有两种，一种是直接从原生数据源得到，另一种是从企业数据仓库得到。