数据库
文章平均质量分 54
asp20
这个作者很懒,什么都没留下…
展开
-
ETL概述
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户...原创 2009-07-19 14:03:56 · 128 阅读 · 0 评论 -
浅析Staging
Staging的意思就是将数据写到磁盘上。出于安全及ETL能方便重新开始,在数据准备区(Staging Area)中的每个步骤中都应该将数据写到磁盘上,即生成文本文件或者将建立关系表保存数据,而不应该以数据不落地方式直接进行ETL。 例如,在数据抽取阶段,我们需要连接到源系统,为了对源系统的影响尽量小,我们需要将抽取的数据保存成文本文件或者放入数据准备区的表中,这样,当E...原创 2009-07-20 09:40:08 · 964 阅读 · 0 评论 -
浅析操作数据存储(ODS)
在数据仓库架构中有一种部件叫Operational Data Store(ODS),中文一般翻译为“操作数据存储”。操作数据存储在通常的数据仓库架构中都是一个可选的部件,它和数据仓库起到互相补充的作用。 最早给ODS下定义的应该是数据仓库之父Inmon。他的定义是,操作数据存储(ODS)是面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、...原创 2009-07-20 09:38:14 · 1674 阅读 · 0 评论 -
浅析变化数据捕获
变化数据捕获(CDC)技术是ETL工作中的重点和难点,通常需要在增量抽取时完成。实现变化数据捕获时最理想的是找到源系统的DBA。如果不能找到,就需要ETL项目组自己进行检测数据的变化。下面是一些常用的技术。1.采用审计列 审计列指表中如“添加日期”、“修改日期”、“修改人”等信息的字段。应用程序在对该表的数据进行操作时,同时更新这些字段,或者建立触发器来更新这些字段。...原创 2009-07-20 09:32:34 · 272 阅读 · 0 评论 -
浅析ETL过程中的元数据
元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。 通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Execution Metadata)。 业务元数据,...原创 2009-07-20 09:30:56 · 1076 阅读 · 0 评论 -
浅析ETL过程的四个步骤
数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。1.抽取阶段的主要任务是: 读取源系统的数据模型。 连接并访问源系统的数据。 变化数据捕获。 抽取数据到数据准备区。2.清洗阶...原创 2009-07-19 21:09:46 · 3009 阅读 · 0 评论 -
联机事务处理(OLAP)
联机事务处理(OLTP)是指利用计算机网络,将分布于不同地理位置的业务处理计算机设备或网络与业务管理中心网络连接,以便于在任何一个网络节点上都可以进行统一、实时的业务处理活动或客户服务。 通常在数据库系统中,事务是工作的离散单位。例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文...原创 2009-07-19 15:38:03 · 462 阅读 · 0 评论 -
ETL工具点评
数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎,前端是数据展现分析的用户界面,还有一个重要的部分就是ETL。 ETL所完成的工作主要包括三方面:首先,在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库;其次,用户的分析和应用也能反映出最新的业务动态,虽然ETL在数据仓库架构的三部分中技术含量并不算高,但其涉及到大量的业务逻辑和异构环境,因...原创 2009-07-19 15:26:19 · 185 阅读 · 0 评论 -
ETL工具分类
针对不同的需求,主要是从转换规则的复杂度和数据量大小来看。ETL分为: 1、交互式运行环境,你可以指定数据源、目标数据,指定规则,立马ETL。这种交互式的操作无疑非常方便,但是只能适合小数据量和复杂度不高的ETL过程,因为一旦规则复杂了,可能需要语言级的描述,不能简简单单拖拖拽拽就可以的。还有数据量的问题,这种交互式必然建立在解释型语言基础上,另外他的灵活性必然要牺牲一定...原创 2009-07-19 14:52:33 · 248 阅读 · 0 评论 -
ETL特点
ETL的过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程。ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。和OLTP系统中不同,那里充满这单条记录的insert、update和select等操作,ETL过程一般都是批量操作,例如它...原创 2009-07-19 14:40:21 · 607 阅读 · 0 评论 -
浅析缓慢变化维
维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。 ...原创 2009-07-20 09:42:53 · 210 阅读 · 0 评论