ETL,你知道是什么吗?
它的英文名是Extract-Transform-Load,直译过来就是提取、转换、加载,即将业务系统中的数据经过提取、清洗转换之后加载至数据仓库的过程。
既然是和业务相关,那在企业中,ELT的目的就是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
可别小瞧了ETL,在BI项目中,它可是占有一席之地,可以说ETL设计的好坏将直接关系到BI项目的成败!
一般来说,ETL的设计分为三部分,也就是字面上的提取、转换和加载。但想要实现,方法有很多种,我们常用的就三种:
借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)用SQL方式实现用ETL工具+SQL相结合的方式实现我们看到这三种方法,用明眼和惯用思维来看,第三种方式会更好,极大地提高ETL的开发速度和效率。
但市场上大多数BI工具是不含ETL功能的,所以当你在进行项目时,一般是用到BI、ETL两个工具,但成本高、耗时长。
所以,今天就为大家介绍另一个可视化ETL工具---数据交换机
不仅可以靠简单的拖拽完成过程,还可以单独使用,听上去是不是很简单的样子,接下来我为大家揭晓庐山真面目。
节点设计可视化、流程化,操作更易用
数据交换机结合了大量项目人员的实施习惯,所以在操作上敏捷易用,可快速地建立起ETL过程,提高效率,降低实施难度,让数据交换机有着更友好易用的数据处理体验:
数据处理支持批量创建,ETL定义支持数据抽样;开发过程支持多人协同定义,共享资料库,使得数据处理过程更高效;系统内部封装大量清洗转换规则,极大程度的降低技术门槛,只需简单的拖拽配置,即可玩转数据处理;丰富的数据处理组件
数据交换机面向数据分析师精心打造,其ETL组件丰富多样,可以满足各种各样的数据处理场景。
灵活的任务调度
支持基于时间或事件的调度机制,如:任意事件周期、文件到达、脚本事件等;调度设置支持crontab表达式;调度设置能指定到月份、星期、日期、小时、分钟的粒度;支持设置调度的时间窗口,重调时间间隔等;支持快速热拔插,可扩展性强
Kettle、Talend、Informatica等传统的工具,是底层封装进行编辑的,所以可优化空间不高,但是数据交换机不同于传统
通过融合离线批处理引擎和在线实时处理引擎,使得同样的数据处理流程可以同时支撑批处理与实时处理;提供从单机到1000+规模集群的支持能力,从而有效支撑小数据到海量数据的无缝扩容能力。
总而言之,相较于目前市面上的ETL工具,交换机的功能要优于它们,相信在企业中,它会发挥很大的作用。