大数据Kettle数仓工具快速入门

2021重返程序道路

已于 2022-08-10 11:46:57 修改

阅读量1.6k

点赞数 4

分类专栏： KETTLE系列文章标签：数据仓库大数据 etl

于 2022-08-10 11:37:00 首次发布

本文链接：https://blog.csdn.net/HAPPYHGZ/article/details/126262345

版权

本文档提供Kettle（Pentaho Data Integration）的快速入门教程，涵盖工具安装、命令介绍、模块解析及实战操作，帮助读者理解并掌握如何利用Kettle进行数据仓库构建和数据处理。通过实例展示了从Excel导入数据到数据库和解压文件到数据库的过程。

摘要由CSDN通过智能技术生成

前言

在阅读该文档之前，我需要说明下，这个技术文档整理了我目前经历过的一些问题和踩过的坑，以及简单的几个demo教大家如何快速上手使用kettle，体会到kettle的便利之处。同时也希望能把我最近吸收到的知识分享给csdn大家庭，大家一起成长！

🎨 在理想的最美好世界中，一切都是为最美好的目的而设。 —— 伏尔泰

一、官方介绍

Kettle最早是一个开源的ETL工具，全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年，Pentaho公司收购了Kettle项目，原Kettle项目发起人Matt Casters加入了Pentaho团队，成为Pentaho套件数据集成架构师 [1] ；从此，Kettle成为企业级数据集成及商业智能套件Pentaho的主要组成部分，Kettle亦重命名为Pentaho Data Integration [1-2] 。Pentaho公司于2015年被Hitachi Data Systems收购。 [3] （Hitachi Data Systems于2017年改名为Hitachi Vantara [4] ）

Pentaho Data Integration以Java开发，支持跨平台运行，其特性包括：支持100%无编码、拖拽方式开发ETL数据管道；可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源；支持ETL数据管道加入机器学习算法。