【数据仓库】数据仓库的发展史

数据仓库的起源可以追溯到计算机的发展初期,并且数据仓库是信息技术长期发展的产物,在以后也会一直发展。

(1)主文件、报表

20世纪60年代初期,计算机领域的主要工作是创建运行在主文件上的单个应用。这些应用是以报表处理和程序为特征的,一般是以某种早期的程序设计语言如Fortran或COBOL编写的。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。比如我们想得到磁带上第20分钟处的数据,那时必须顺序访问完前面的19分钟。磁带在提供廉价存储的同时,也带来了数据的大量冗余。

20世纪60年代中期,大量的主文件带来了诸多问题,如:

☆ 更新数据时需要保持数据的一致性。

☆ 程序维护的复杂性。

☆ 开发新程序的复杂性。

☆ 支持所有主文件需要增加大量的硬件。

(2)DASD和DBMS的出现

到了1970年,出现了一种新的存储和访问技术,也就是磁盘存储器,或者称之为直接存取存储设备(Direct Access Storage Device,DASD)。磁盘存储与磁带存储的根本不同在于磁盘上的数据能够直接访问。DASD要访问第n+1条记录,不再需要顺序访问第1、2、3......n条记录,而是一旦知道了第n+1条记录的地址,就可以直接访问它。

随着DASD的发展,出现了一种称为数据库管理系统(Database Management System,DBMS)的新型系统软件。这种新型软件目的是使程序员可以方便的在DASD上面进行存储和访问。伴随着DBMS,出现了“数据库”的概念。

到了20世纪70年代中期,在线事务处理(Online  Transaction Processing,OLTP)使得访问数据可以更快速的进行,采用在线事务处理可以完成许多过去无法完成的事情。

(3)个人计算机和第四代编程语言技术

到了20世纪80年代,涌现了一些更为新颖的技术,比如个人计算机(PC)和第四代编程语言(Fourth-Generation Language,4GL)。随着PC和4GL的发展,除了高性能的在线事务处理之外,人们可以利用数据做更多的事情,比如早期的管理信息系统(Management InformationSystem,MIS),如今这种技术成为DSS。

(4)抽取程序

随着大型在线事务处理系统问世不久,出现了抽取程序。抽取程序可以通过设置参数,在文件中搜索满足条件的数据,然后把这些数据传送到其他文件或者数据库中。抽取程序在当时特别流行的原因如下:

通过抽取技术,可以实现把想要的数据从在线事务处理系统中分离出来,这样就可以解决数据分析性能方面的问题;

抽取出来的数据,给人们在使用数据方面带来了极大的灵活性,我们可以使用这些数据做各种分析。

(5)抽取之上的抽取

起初,只是对在线事务处理系统中的数据进行抽取。慢慢的人们发现在抽取结果中,加上一些条件限制可以更方便的得到想要的数据,于是就出现了基于抽取之上的抽取。这样就造成了如下问题:

☆ 数据时间不统一

☆ 抽取程序的差异

☆ 外部数据加载问题

☆ 无公共起始数据源

以上问题就会有可能导致,当使用不同抽取程序的两个部门,在分析同一个问题的时候产生很大差异。

(6)数据仓库

当人们意识到无休止的抽取带来诸多问题后,开始思考是否可以建立成体系的机构化环境,以减少数据的差异。这也就是数据仓库出现的原因。数据仓库从操作型数据库中抽取数据,通过规范的加工过程,得到粒度化数据,并且这些数据时面向主题、集成、不易失、随时间变化的数据。在数据仓库的基础上,可以建立不同分析角度的BI报表系统。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值