企业级数据仓库体系架构

本文介绍了企业数据仓库系统的一般结构,包括数据源、存储与管理、OLAP服务器和前端工具。讨论了集中式和Hub and Spoke两种架构的优缺点,强调了数据仓库引擎在处理大量数据和并发查询时的挑战。数据仓库的实施是一个长期过程,需要考虑线性扩展能力、并行处理能力和系统管理的简便性。
摘要由CSDN通过智能技术生成

[作者blog: duzhaoyi2000 ]

  一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。

    

    数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;

    数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。

    OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

    前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。

集线器与车轮状结构的企业级数据仓库

    这种结构也称为“Hub and Spoke”,这是因为中央数据库汇集了来自各业务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个Hub (集线器);而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像Spoke(车轮辐条)一样。 

    “Hub and Spoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度来看仍有比较严重的缺陷:一是业务人员对信息的访问非常不方便,很难进行跨数据集市或跨部门的信息分析;另一个问题是每个数据集市都需要相应的软硬件投入,当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也随之增加。这些都意味着巨大的整体拥有成本TCO(Total Cost of Ownership)。

    为什么不直接访问中央数据仓库而非要设计一

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值