大数据Kettle数仓工具快速入门

本文档提供Kettle(Pentaho Data Integration)的快速入门教程,涵盖工具安装、命令介绍、模块解析及实战操作,帮助读者理解并掌握如何利用Kettle进行数据仓库构建和数据处理。通过实例展示了从Excel导入数据到数据库和解压文件到数据库的过程。
摘要由CSDN通过智能技术生成

目录

前言

一、官方介绍

二、个人总结

三、 工具安装

1.1 下载方式

1.2 安装注意事项

四、命令介绍

2.1 Spoon命令

2.2 Pan命令

2.3 Kitchen命令

2.4 Carte命令

五、模块介绍

3.1 转换模块(Trans)

3.2 作业模块(Jobs)

六、实战操作

4.1 Excel导入数据到数据库

4.2 通过kettle解压文件

七、结束语


前言

在阅读该文档之前,我需要说明下,这个技术文档整理了我目前经历过的一些问题和踩过的坑,以及简单的几个demo教大家如何快速上手使用kettle,体会到kettle的便利之处。同时也希望能把我最近吸收到的知识分享给csdn大家庭,大家一起成长!

🎨 在理想的最美好世界中,一切都是为最美好的目的而设。 —— 伏尔泰

一、官方介绍

Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettle项目,原Kettle项目发起人Matt Casters加入了Pentaho团队,成为Pentaho套件数据集成架构师 [1] ;从此,Kettle成为企业级数据集成商业智能套件Pentaho的主要组成部分,Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] (Hitachi Data Systems于2017年改名为Hitachi Vantara [4] )

Pentaho Data Integration以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。

二、个人总结

📚 简单的可以理解成,kettle就是一个水壶,所有不同来源,不同格式的数据都可以扔进去,最后处理完成后可以统一方式输出,熟悉操作后可以提升数据处理效率,降低开发成本。

比如从数据库抽取数据,然后定时生成Excel文件功能,或者定时导入Excel数据到数据库功能等等都可以利用工具快速实现。

kettle可以分为四个操作命令和两个模块,以及存储位置说明,具体我用3个思维导图来让大家快速了解。

  • 1/3=>四个操作命令

  • 2/3=>两个模块

  • 3/3=>脚本存储位置

 

三、 工具安装

1.1 下载方式

Pentaho from Hitachi Vantara - Browse /Data Integration at SourceForge.netEnd to end data integration and analytics platformhttps://sourceforge.net/projects/pentaho/files/Data%20Integration/

这边建议直接使用7.1版本,然后点击下载

1.2 安装注意事项

软件免安装,下载好了以后,直接解压出来即可使用了,可以看到有/data-integration这个文件夹。如果执行./spoon.sh有报错就看这里,没报错跳过这节。

出现报错的80%是缺少数据库mysql对应的jar包,还有10%是java环境的jdk版本原因,所以这里会给出这两个

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值