轻量级ETL工具

         ETL是各类数据分析的前奏,是数据仓库中很重要的一个环节。它的全称是Extraction-Transformation-Loading,很明显,它的处理过程主要分为三步:数据提取、转换和加载。ETL所要完成的工作,就是把数据从数据库、数据文件等等数据源中提取出来,然后按照要求进行数据清洗、转换和集成,最后将结果加载到数据仓库中。

         ETL事实上是个非常普遍的应用环节,但当前业内的ETL产品很多,选择哪个ETL工具也是一件令人为难的事情。ETL的工具往往功能强大,但是均过于沉重,想要熟练使用这些工具来解决业务中遇到的复杂问题,往往需要较长时间的学习,需要工具的使用有相当程度的掌握。

        我们有可能遇到各种各样ETL的问题,如:

  • 生成月度电话费帐单
  • 生成奥运会金牌榜
  • 根据绩效和考勤计算工资并准备银行代发工资文件
  • 清算未缴清的交通罚款及滞纳金
  • 清算房贷合同年末剩余本金与利息
  • ……

        ETL承担着中间数据处理的任务,它的实质就是数据计算,而这是esProc的强项,esProc可以很好地承担这一工作。

        比如,我们需要计算出奥运会金牌榜。这实际上就是一个ETL的过程,原始数据包括以下三个表:国家列表、运动员列表以及各项比赛成绩表:

       首先是数据提取,使用esProc,可以提取各类来源的数据进行集中计算,不论是来自同一数据库中的多个表,或者是多个数据库、甚至其中包括来自文件的数据等,都可以轻松完成,下面以同一数据库中的多个表为例:

        数据库中存储的数据,有可能存在错误,或者需要在统计时进行修正,这就需要进行数据清理工作。如,在本例中,某些运动员存在违规行为(Notes为DQ),成绩被取消,本项目中其他人的名次需要改变;某些运动员的奖牌被剥夺(Note为STRIP)。为此,需要选出成绩存在问题的项目,依此对名次进行修正:

      在完成修改后,可以在A4中查看经过改变的成绩单:

     数据清洗完成后,需要对数据进行转换和集成,以获取需要的数据。如需要获得金牌榜中各个国家的排名:

        计算金牌榜,只需要将成绩按照国家分组,再分别统计金牌、银牌和铜牌的数目,然后计算出排名即可。在A14中,可以查看最终的金牌榜:

    ETL的最后一步是加载,使用esProc,可以很方便地将结果输出:

     可以从数据库中查看输出的结果:

     可见,使用esProc,可以轻松自如地完成ETL中的各项工作。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值