ETL工具的关键技术

数据库的ETL工具就是指包括对数据表的抽取,转换,加载三个功能的软件工具,主要用于对多个数据库中的表进行集成,集成到一个数据仓库中,当数据源的表发生变化时,需要对捕获该变化,并且反应到数据仓库中,始终需要对数据仓库中的状态与数据源的状态保持一致性,这里关键的技术是增量获取。目前有IBMdatastageoracleOWB,微软的集成系统等。当然这些工具都有缺点,一般人员很难去熟悉他们,特别是OWB,配置过程相当麻烦,而datastage使用起来很方便,很人性化,很不错的软件。当然国外的软件价钱都不便宜。

       增量获取有三种方式:触发器,快照,日志三种,触发器是在数据源上对需要获取数据的表上建立一个触发器,在每次插,册,改时触发一个记录事件,将此次修改的记录值记录到一个临时表中,用户只需要该增量临时表中获取即可。快照,是在数据源上建立一个旧快照,然后对当前数据值与旧快照进行比较后将产生出变化数据,然后再把当前数据值作为下一次要使用的快照,依次进行下去。而日志就是直接读取数据库中的日志记录来获取增量。三种方式各有优缺点,而对于一些其他的数据,如文本,EXCEL等都用快照比较适用。目前大部分ETL工具采用的是快照。当然也有一些数据库厂商采用日志。

       除了数据抽取外,另一个重要的过程就是转换了,转换有清洗数据,对数据值设定条件等。这个一般都是需要人工干预的,通过在定义一个工作流的过程中,事先定义好一个数据转换的规则,然后当数据到达时,对数据进行判断规则即可。条件符号,则把数据提交给加载器加裁到数据仓库中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值