ETL
ETL模块:统一调度管理、统一监控管理、ETL出错管理、ETL回溯处理等。
ETL设计原则:
- 模块化的系统。将管理控制类模块与具体数据模块严格分开。
- 统一的调度与管理。
- 高效的ETL加载策略。
- 安全的数据管理与用户管理。
- 便利的消息通知机制。
1.操作数据层ETL
将需要处理的数据从业务数据库导入ODS层的预处理过程。主要系统的数据量、环境的异构性、数据的加载方式、数据的加载策略、ETL执行时间、开发工具等。
数据加载方式:
- 【增量加载】有时间戳、数据量较大,数据产生较快的交易流水表。
- 【全量加载】包含时间戳、数据量较小、数据产生较缓慢的流水表。
- 【全量加载】没有时间戳的业务表,同时增加业务日期字段(BIZ_DATA),标识是那一天的数据,并根据该字段删除超过期限的数据。
数据加载策略:
- 数据加载窗口,有的系统每天数据处理完之后有相应的标志,有的没有(和业务人员定好时间),确保采集到的源数据是每天最新的数据。
- 数据加载顺序:一般ODS层ETL没有依赖关系,主要依据是ETL执行时间和服务器的性能。采用多线程并行加载方式