一、ETL在数据仓库角色
ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。在整个数据分析流程中,用于数据处理的时间往往要占据70%以上。有着大数据分析系统中的数据“发动机”比喻!
二、为什么建数据仓库需要ETL工具?
数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。在这个过程中如果没有好的ETL工具进行辅助建立数据仓库,将会非常耗时耗精力。一个好的数据仓库解决方案可以给你节省大量时间和成本。在构建数据仓库过程中大量处理SQL代码来完成数据处理,所以选择一个好的ETL工具也是构建数据仓库的一个关键。通俗理解,数据仓库就像大水池,给水池蓄水需要泵和水管,ETL就承载着泵和水管功能。
在做项目时是不是时常让客户有这样的困扰:
1、开发时间太长
2、花费太多
3、需要太多资源
4、集成多个事务系统数据总是需要大量人力成本
5、找不到合适的技能和经验的人
6、一旦建立,数据仓库无法足够迅速地应对变化
7、一直达不到客户的期望
8、业务人员很难获得数据仓库的数据
9、传统构建数据仓库费用极其可怕地保持运行后建立架构和设计不足,缺乏项目文档和团队支持
10、数据仓库有太多太复杂的工具和技术,不好分辨那个工具是实用的
11、构建数据仓库一直以来是一个高风险的任务
三、如何选择ETL工具
选择ETL工具的维度有很多都可以影响你的决策,如时间、成本、易用性、云能力、未来需求变化的应对能力等等。当有一个工具能够在同一时间解决这些困扰你的因素你会选择么?在寻找ETL工具之前其实更好的方式是总结数据仓库构建过程中真正导致失败的原因:
1. 缺乏强有力的执行团队
2. 不完整的企业级数据仓库体系结构和文档
3. 缺乏数据仓库设计思维
4. 执行团队未获知完整的需求
5. 分析过程没有及时验证原型
6. 企业级数据仓库数据库设计没有可扩展性和适应性
7. 执行团队从来没有构建数据仓库
8. 需求采集不懂业务
9. 没有专业技术团队协同开发的工具
10. 数据集成证明比预期的更困难
四、ETL工具厂商的价值
你可能觉得在寻找一个能够轻松应对客户需求变化的ETL工具很困难,甚至可能没有这样的ETL工具可以解决这些问题。 ETL工具厂商提供的不光光是简单ETL工具,应该是一个企业数据集成平台的解决方案,这个解决方案包含有:①一套成熟 数据集成工具 ②一套成熟 数据集成实施方法 ③一支足够强有力的 执行技术团队 项目后期运维。但这个工具不同厂商又各有所别。
经筛选ETL工具典型代表厂商,必须满足:
1、专注性
2、持续性
3、通用性
4、自控核心(非包装开源)
5、创新性
6、C\S架构
7、C++ \JAVA 开发
8、时间性 (10年以上 升级、 完善、升级、完善......)
9、拥有各行业应用案例
五、拥有15年以上知名商用ETL工具历程
-
Datastage
是IBM收购的Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的分公司)业界领先的云就绪数据集成解决方案。在数据集成,数据清洗,主数据管理,大数据处理方面有着充分的优势,是商业软件,专业ETL工具,价格不菲,适合大规模的ETL应用。
使用难度及维护成本 🌟🌟🌟🌟
-
Informatica
成立于1993年。是全球领先的独立企业数据集成软件提供商。2005年正式进入中国。
PowerCenter 是世界级的企业数据集成平台,在ETL领域中无论执行能力还是战略远见方面都是佼佼者
商业软件,专业ETL工具,价格比DS便宜一点,适合大规模的ETL 应用。
使用难度及维护成本 🌟🌟🌟
Beeload (轻量)始于2004年发布 V1.0 是国内最早持续专注ETL工具产品化的独立软件原厂商(中国 北京)
BeeDI(高端) 专一、专业于自研核心ETL工具产品持续升级10余年。多年位居国产ETL工具市场优势(国内安装约3000余套~)
商业软件,国产最专业ETL工具,价格满足本土大、中、小、微型规模的ETL 应用 。
使用难度及维护成本 🌟🌟