目录
前言
在阅读该文档之前,我需要说明下,这个技术文档整理了我目前经历过的一些问题和踩过的坑,以及简单的几个demo教大家如何快速上手使用kettle,体会到kettle的便利之处。同时也希望能把我最近吸收到的知识分享给csdn大家庭,大家一起成长!
🎨 在理想的最美好世界中,一切都是为最美好的目的而设。 —— 伏尔泰
一、官方介绍
Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师 [1] ;从此,Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分,Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] (Hitachi Data Systems于2017年改名为Hitachi Vantara [4] )
Pentaho Data Integration以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。
二、个人总结
📚 简单的可以理解成,kettle就是一个水壶,所有不同来源,不同格式的数据都可以扔进去,最后处理完成后可以统一方式输出,熟悉操作后可以提升数据处理效率,降低开发成本。
比如从数据库抽取数据,然后定时生成Excel文件功能,或者定时导入Excel数据到数据库功能等等都可以利用工具快速实现。
kettle可以分为四个操作命令和两个模块,以及存储位置说明,具体我用3个思维导图来让大家快速了解。
- 1/3=>四个操作命令
- 2/3=>两个模块
- 3/3=>脚本存储位置
三、 工具安装
1.1 下载方式
这边建议直接使用7.1版本,然后点击下载
1.2 安装注意事项
软件免安装,下载好了以后,直接解压出来即可使用了,可以看到有/data-integration这个文件夹。如果执行./spoon.sh有报错就看这里,没报错跳过这节。
出现报错的80%是缺少数据库mysql对应的jar包,还有10%是java环境的jdk版本原因,所以这里会给出这两个