合并数据
首先,我们必须能够将特定项目(产品、顾客、职员)的全部相关信息从多个OLTP(On-line Transaction Processing,联机事务处理)系统合并到一个OLAP(Online Analytical Processing,联机分析处理)系统。合并过程必须解决不同OLTP系统间的编码差别问题。例如:一个系统可能为每个职员指派一个ID,而其它系统没有职员ID。合并过程必须能够匹配两个系统中的常用职员数据,这多半可通过比较职员姓名和地址实现。此外,合并过程还必须能够将各OLTP 系统中使用不同数据类型存储的数据转换成在某个OLAP系统中使用的单一数据类型。
为OLAP系统提供输入数据的系统并不局限于传统的、位于中央位置的OLTP系统。重要的信息可以存储在多个遗留位置上,有些情况下甚至可以在文件共享上存储相对较小的数据源,如: Microsoft Excel 等应用软件。
清理数据
将OLTP数据合并到数据仓库中后,便提供了一个清理数据的机会。用户可能会发现不同的 OLTP系统以不同的方式拼写项目,或者合并过程可能没有覆盖以前不知道的拼写错误。还可能发现其它的不一致,例如:同一商店、职员或顾客的地址不同。在可以将数据装载到数据仓库中供OLAP系统使用之前,必须找出这些不一致。
聚合数据
OLTP数据记录所有的事务详细信息。OLAP查询通常需要汇总数据或是已经以某种方式聚合的数据。如果数据库只包含显示每种产品每天或每小时销售额的汇总行,那么查询只用检索过去一年中每种产品的月销售总额,这比必须扫描过去一年中每个事务的详细记录要快得多。
对数据仓库内数据的聚合程度取决于许多设计因素,如: OLAP 查询的速度要求和分析所要求的粒度级。例如,如果将销售额详细信息汇总到每日汇总中,而不是每小时汇总中,OLAP 查询将会运行得更快,但是只有当不需要分析每小时的销售额时才可以这么做。
向多维数据集中
关系OLTP数据的组织方式增加了分析处理的难度,而且极为耗时。当将OLTP数据移入数据仓库时,必须对其结构进行转换,使之能够更好地支持决策支持分析。生成数据仓库的过程涉及将存储在关系表中的 OLTP 数据重组为存储在多维数据集中的数据。
转换阶段和数据仓库组件
通过 OLAP 应用程序使数据可用的过程一般经过下列三个阶段:将数据从 OLTP 或遗留数据源析取到中间存储区域中;将数据转换为更适合在 OLAP 系统中使用的格式。这涉及数据清理和聚合等操作;将数据装载到数据仓库或数据集市中。从 OLTP 和遗留数据源中析取数据并将其转换到仓库服务器中的过程称为 ETL过程,通常定期运行,如每周一次或每月一次。 一旦将数据装载到数据仓库中,OLAP 系统的一个重要职能便是为决策者提供在数据仓库和数据集市中访问和分析数据的便利。