数据仓库,数据集市介绍

定义

数据仓库是一个面向主题的,集成的,非易失性的且随时间变化的数据集合,用于支持管理人员的决策。

四大特征

面向主题的,集成的,非易失性,随时间不断变化的

面向主题

主题:特定的数据分析领域与目标(就是业务需求模块,比如用户模块,支付模块等
面向主题:为特定的数据分析领域提供数据支持(根据不同业务需求,提供不同的数据支持
主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象。
数据仓库中的
主题有时会因用户主观要求的变化而变化的,其主题是随着时间,用户不断变化的

数据仓库中数据和传统数据库中数据的不同之处:

(1)为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成
(2)面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。

以面向事务(即每发生一个时间就会产生一条数据,数据和事务是对应关系的)处理的商场数据库系统为例:
表分为:采购子系统,销售子系统,库存管理子系统,人事管理子系统。
分析:上述数据模型基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高,上述数据模型耦合度很高,即表与表之间的数据关系很强。

解释:如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据又不是完全相同

不同主题的数据会有重叠,但那时逻辑的重叠,不是物理存储的重叠,是局部的重叠,不是完全的重叠。

每个主题所需要的数据存储

多维数据库(MDDB—Multi-DimensionalDataBase)用多维数组形式存储数据。一般部门级的数据仓库会使用这种

关系数据库(一般企业级的数据仓库会使用这种,所有的数据都存储在这样的一个数据仓库中)。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。

集成的

集成性是指数据仓库中数据必须是一致的。
数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来
源可能既有内部数据又有外部数据。而这些数据因为来自不同数据源,很可能同一对象在不同数据源中数据表示会不一样

集成方法:
统一:消除不一致的现象
综合:对原有数据进行综合和计算

需要考虑的问题:
–数据格式
–计量单位
–数据代码含义混乱(主要指枚举)
–数据名称混乱

非易失

数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况下不执行‘更新’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订

随着时间不断变化的

数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据(一般公司会保存1年的历史数据)。
• 数据仓库中的数据必须以一定时间段为单位进行统一更新
–不断增加新的数据内容
–不断删去旧的数据内容
–更新与时间有关的综合数据

数据集市

建立数据集市的原因:
数据仓库是一种反映主题的全局性数据组织(一般企业都会建立有企业级的数据仓库)。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值