最近两个月一直和kettle打交道,从开始的没听说过,到现在能够熟练运用,不得不说项目驱动下,学习东西是最快的。好了,虽然使用kettle应付项目的任务绰绰有余,但是还是想系统的学习一下,总结一下。例如job用的比较少,kettle的集群模式没有涉及到等等。
说起kettle,还是先说说ETL(Extract-Transform-load,即抽取,转换,加载)数据仓库技术,是用来处理将数据从来源(例如:单位基础服务器)经过抽取,转换,加载到达至目的端(正在做的项目)的过程。也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的。
ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的,失去其中任何一方面都是不过关的。
ETL实现主要是转换的实现,包含几个方面(来自百科):
1
Kettle入门:ETL数据转换工具详解

本文介绍了ETL技术及其关键要点,如数据的空值处理、规范化、验证等。Kettle作为一款开源的ETL工具,以其跨平台、高效稳定的特点受到欢迎。文章还提及Kettle家族的组成部分,如Spoon、Pan、CHEF和Kitchen,并解释了它们各自的作用。通过资源库、数据库连接、作业和转换的概念,帮助理解Kettle的工作原理。Kettle适用于需要大量数据库间数据迁移的项目。
最低0.47元/天 解锁文章
5703





