银行数据仓库体系实践(4)--数据抽取和加载

1、ETL和ELT

        ETL是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合:

        E:抽取,从源系统(Souce)获取数据;

        T:转换,将源系统获取的数据进行处理加工,比如数据格式转化、数据精度转换、数据清洗、缺失数据补齐、异常数据排除等。

        L:加载,将数据加载到目标数据库(Target)。

        ELT也是同样三个单词的首字母组合,只是把T、L颠倒了下顺序。ETL强调的是先进性数据转换,然后再加载到目标。这个转换过程可以在原系统进行,也可以在中间环境进行进行。而ELT是把数据加载到数据仓库后再进行转化。ETL优势是充分利用各关联系统的性能,提高效率,但程序部署分散,运维成本较高。ELT是充分发挥数据仓库平台数据加工的高性能,并且可以保存原始数据方便后续复用。

        随着数据仓库平台的性能越来越高,容量成本越来越低,目前更多的是采用ELT方式,充分利用数据仓库的高性能,提高加工效率。但在数据加载前也需要进行数据编码转化、异常数据等影响加载的处理,确保数据正确加载到数据仓库平台,但不做数据逻辑加工。

        由于ETL出现较早,通常使用ETL来代表数据抽取加载和转换的统称。

 

2、ETL架构设计

        数据ETL需要有ETL服务器集群执行数据ETL作业来进行数据抽取、转换和加载,所有ETL作业的脚本部署多台ETL服务器上,ETL作业可以根据服务器资源由调度工具分配到任意一台ETL服务器执行,常见架构如下图:

       ETL架构不仅仅是作为数据仓库的架构,但也是全行批量数据交换的统一架构和标准,虽然数据仓库是其中最大的一个数据加载的目标系统和数据源系统,但从架构规划角度来看,需要从全行、全集团的角度来设计批量数据交换,考虑多机构间交互场景,减少不必要的转换,提高效率和稳定性。

       ETL服务器集群需要做到高可用,对于不能正常服务或负载过高的服务器,调度平台不会将作业分配到该服务器,所有的ETL作业脚本需要在每台服务器上部署,不能只部署一份代码到共享存储中。

       在硬件资源上,服务器的IO和内存需要配置较高,同是由于批量数据容量较大,网络带宽需要千兆以上,同时需要考虑在传输高峰不能影响交易系统的网络通讯。

 

(1)文件方式和端到端方式

       数据抽取和加载从是否经过中间落地成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值