这是很久以前在处理增量时的老文章,近年实施大量项目中的经验处理方式是往往不得已时才采取增量处理的方式。而更多采用的方式是严格控制操作数据窗口,在满足业务限制及分析需求的前提下力求数据更新窗口最小化,这种最简单的策略反而被证明是一种简单、快速、高效的做法。以下是旧文:
增量数据抽取是指在进行ETL操作时,只抽取源数据中发生改变的地方,没有发生变化的以抽取数据不进行重复的抽取,增量抽取与完全抽取及更新相对。
1、增量抽取特点
1.只抽取发生变化的地方;
2.相对于完全抽取更快捷,处理量减少;
3.采用增量抽取需要在与数据装载时的更新策略相对应;
当源系统数据量浩大,或需要在相对实时的情况下装载业务系统的数据时,完全抽取几乎不太可能,此时应该考虑合理的增量抽取策略。
2、增量抽取策略
增量抽取的策略在Bill Inmon的经典著作《Building the Data Warehouse》里已有所提及,主要包括以下方法:
- 时间戳:扫描数据记录的更改时间戳,比较时间戳以确定被更新的数据;
- 增量文件:扫描应用程序在更改数据时所纪录的数据变化增量文件,增量文件仅仅数据所发生的变化;