ETL是数据仓库建设中一个最重要和具有挑战性的工作,也是一个耗时而且费劲的工作。
数据抽取
数据仓库与操作型系统数据抽取的有一些:数据仓库必须从不同的系统中抽取数据;必须根据增量装载工作和初始完全装载的变化来抽取数据;而操作型系统只需要一次性抽取和数据转换。
数据抽取的要点
数据源确认:确认数据的源系统和结构;
抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具抽取;
抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、每季度;
时间窗口:对于每个数据源,表示抽取过程进行的时间窗口;
工作顺序:决定抽取任务中某项工作是否必须等到前面的工作成功完成才能开始;
异常处理:决定如何处理无法抽取的输入记录;
<