数据仓库数据集市

最新推荐文章于 2024-02-23 15:13:19 发布

长空飞鸟

最新推荐文章于 2024-02-23 15:13:19 发布

阅读量855

点赞数

文章标签：数据仓库工具工作

本文链接：https://blog.csdn.net/iflysoft/article/details/5949065

版权

理论上讲，应该有一个总的数据仓库的概念，然后才有数据集市。实际建设数据集市的时候，国内很少这么做。国内一般会先从数据集市入手，就某一个特定的主题（比如企业的客户信息）先做数据集市，再建设数据仓库。数据仓库和数据集市建立的先后次序之分，是和设计方法紧密相关的。而数据仓库作为工程学科，并没有对错之分，主要判别方式应该是能否解决目前存在的实际问题，并为今后可能发生的问题保持一定的可伸缩性。

数据集市的 “独立” 性

　　企业规划数据仓库项目的时候，往往会遇到很多数据仓库软件供应商。各供应商除了推销相关的软件工具外，同时也会向企业灌输许多概念。其中，数据仓库和数据集市是最常见的两个术语了。各个供应商术语定义不统一、销售策略不一样，这往往会给企业带来很大的混淆。最典型的问题是：到底是先上一个企业级的数据仓库呢？还是先上一个部门级的数据集市？这其实是是否要上独立型数据集市的问题。

　　数据集市可以分为两种类型——独立型数据集市和从属型数据集市。独立型数据集市直接从操作型环境获取数据，从属型数据集市从企业级数据仓库获取数据，带有从属型数据集市的体系结构。

　　数据仓库规模大、周期长，一些规模比较小的企业用户难以承担。因此，作为快速解决企业当前存在的实际问题的一种有效方法，独立型数据集市成为一种既成事实。独立型数据集市是为满足特定用户（一般是部门级别的）的需求而建立的一种分析型环境，它能够快速地解决某些具体的问题，而且投资规模也比数据仓库小很多。

　　独立型数据集市的存在会给人造成一种错觉，似乎可以先独立地构建数据集市，当数据集市达到一定的规模再直接转换为数据仓库。有些销售人员会推销这种观点，其实质却常常是因为建立企业级数据仓库的销售周期太长以至于不好操作。

　　多个独立的数据集市的累积，是不能形成一个企业级的数据仓库的，这是由数据仓库和数据集市本身的特点决定的—数据集市为各个部门或工作组所用，各个集市之间存在不一致性是难免的。因为脱离数据仓库的缘故，当多个独立型数据集市增长到一定规模之后，由于没有统一的数据仓库协调，企业只会又增加一些信息孤岛，仍然不能以整个企业的视图分析数据。借用Inmon的比喻：人们不可能将大海里的小鱼堆在一起就构成一头大鲸鱼，这也说明了数据仓库和数据集市有本质的不同。

　　如果企业最终想建设一个全企业统一的数据仓库，想要以整个企业的视图分析数据，独立型数据集市恐怕不是合适的选择；也就是说“先独立地构建数据集市，当数据集市达到一定的规模再直接转换为数据仓库”是不合适的。从长远的角度看，从属型数据集市在体系结构上比独立型数据集市更稳定，可以说是数据集市未来建设的主要方向。