数据仓库理论

数仓概述

数据仓库的概念原先为“商业数据仓库”。本质上,数据仓库是一种从操作性系统到决策支持环境的数据流架构模型,而数仓概念也是为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。
Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。

数据仓库的数据是面向主题的

传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单的说就是与业务相关的数据类别,每一个主题基本对应一个宏观的分析领域。数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。
为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。
数据仓库是面向分析、决策人员的主管要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。
例:一个面向事务处理的“商场”数据库系统,其数据模式如下:
采购子系统:
订单(订单号,供应商,总金额,日期)
订单细则(订单号,商品号,类别,单价,数量)
供应商(供应商号,供应商名,地址,电话)
销售子系统:
顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
销售(员工号,顾客号,商品号,数量,单价,日期)
库存管理子系统:
领料单(领料单号,领料人,商品号,数量,日期)
进料单(进料单号,订单号,进料人,收料人,日期)
库存(商品号,库房号,库存量,日期)
库房(库房号,仓库管理员,地点,库存商品描述)
人事管理子系统:
员工(员工号,姓名,性别,年龄,文化程度,部门号)
部门(部门号,部门名称,部门主管,电话)
上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。
如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。
主题一:商品
商品固有信息:商品号,商品名,类别,颜色等
商品采购信息:商品号,供应商号,供应价,供应日期,供应量等
商品销售信息:商品号,顾客号,售价,销售日期,销售量等
商品库存信息:商品号,库房号,库存量,日期等
主题二:供应商
供应商固有信息:供应商号,供应商名,地址,电话等
供应商品信息:供应商号,商品号,供应价,公映日期,供应量等
主题三:顾客
顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等
顾客购物信息:顾客号,商品号,售价,购买日期,购买量等
在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。
不同的主题的之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的存储,是部分细节的重叠,而不是完全的重叠。

数据仓库的数据是集成的

集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。
数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。假设财务系统中对于性别使用F/M,而OA系统对性别使用A/B,这就是数据不一致,如果想搭建企业级的数据仓库,需要数据具有一致性
集成的方法
1、统一:消除不一致的现象
2、综合:对原有数据进行综合和计算
需要考虑的问题:
1、数据格式
2、计量单位
3、数据代码含义混乱
4、数据名称混乱

数据仓库的数据是非易失的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值