Kettle PDI小白新手/进阶/必备大数据基础之一数据清洗(ETL）基础进阶总结 1.6万字长文附带大数据流处理和批处理的定义，Spark，Flink和Storm优缺点和适用场景混合处理模式

Kettle ETL 数据清洗与集成

原创

已于 2024-08-17 16:49:20 修改 · 4.2k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#etl #大数据 #数据仓库 #etl工程师

于 2024-08-17 16:48:25 首次发布

Kettle 是一个开源的数据集成工具，主要用于 ETL（抽取、转换、加载）过程。它的全名是 Pentaho Data Integration (PDI)，而 Kettle 是其早期的名字，Kettle在2006年被Pentaho收购后，正式更名为Pentaho Data Integration（PDI），因此现在更常被称为PDI。PDI仍然是Pentaho产品套件中的一个重要组件，用于数据集成和ETL过程。

（现在称为Pentaho Data Integration或PDI）
注意：我的文章一般针对的是已经学了但一知半解那种，或是刚进公司的新人先收藏我这篇

啥也不会/第一次听说：数据清洗-ETL ？去看下面这个老哥的教程如下： ETL工具之Kettle_kettle哪个版本稳定-CSDN博客文章浏览阅读8.7k次，点赞14次，收藏62次。Kettle是一款国外开源的ETL工具，纯Java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。_kettle哪个版本稳定https://blog.csdn.net/qq1196676009/article/details/124837163

他写的针对零基础，看完他那篇，再回头看我这篇，

我这篇主要是针对向高级数据清洗工程师进阶的一种指路教程

注意：数据清洗和质量控制是数据处理过程中的关键环节。在PDI中,您可以使用各种转换步骤来清洗和规范数据,如过滤掉缺失值、处理重复数据、识别和处理异常值等。通过数据清洗和质量控制,可以确保数据质量良好,提高数据分析和决策的准确性。

与大数据平台集成是kettle的一个重要应用场景。通过与Hadoop、Spark等大数据平台集成,可以处理大规模数据并实现复杂的数据处理任务。使用kettle的相关插件或步骤来连接大数据平台,实现数据的抽取、转换和加载,从而实现大数据处理和分析。

总结

虽然PDI（kettle ETL）是一个功能强大的数据清洗工具，提供了丰富的数据处理功能，但在处理大规模实时数据流方面，Apache Spark、Apache Flink和Apache Storm等工具在性能和功能上可能具有一定的优势。这些工具特别适合于需要高吞吐量、低延迟处理能力的实时数据集成和流式处理批处理场景。

选择哪个工具取决于具体的应用场景、数据量大小、处理需求以及团队的技术栈。在决定使用哪个工具之前，建议对这些工具进行深入的评估和测试，以确定哪个最适合的业务需求。

流处理的优缺点和批处理刚好相反，且处理的数据模式也相反，这就像阴阳鱼一样相互对立，那么肯定会有人突发奇想: 能不能结合使用综合两者优点，对冲缺点风险？答案是：可以的，这个叫做：混合处理模式（Hybrid Processing）

Apache Spark、Apache Flink和Apache Storm,混合处理模式在文末【8】的上面有详解

写文不易给我点点关注和点点赞点点收藏吧

下面这个链接是我主页

3分云计算-CSDN博客3分云计算擅长云计算及运维,大数据运维及大数据基础,k8s,等方面的知识,3分云计算关注kubernetes,求职招聘,数据仓库,量子计算,ssh,redis,spring,java,apache,elasticsearch,devops,flume,mysql,vim,开源,空间计算,python,zabbix,github,oracle,nginx,ubuntu,elk,华为云,开源软件,自动化,缓存,数据结构,交友,gitee,flink,运维,pycharm,kafka,服务器,gitlab,搜索引擎,运维开发,大数据,centos,hive,容器,idea,金融,docker,sql,ansible,git,spark,linux,debian,jenkins,json,hadoop,sublime text,数据库,云计算,系统架构,程序人生,负载均衡,vscode,hdfs,bash,aws,etcd,低代码领域.https://blog.csdn.net/qq_61414097

如何用sql在1分钟从1T数据中精准定位查询？Hive离线数仓 Spark分析_hive 通过sparksql查询能力-CSDN博客文章浏览阅读3.3k次，点赞65次，收藏20次。在大数据-Hadoop体系中，spark批处理和hive离线数仓可以说是对立并行的两个大分支技术栈，，，建议主攻其一，另一个灵活使用就行。他们是2015出现在国内，2017年之后国外各大公司纷纷采用，国内2020采用的，目前属于很前沿，并且很主流，很顶层的技术。（注：19年国内云计算开始起势，大数据的发展与云计算和人工智能等密切相关，更离不开芯片，硬件存储技术等相关支撑，它们之间相辅相成_hive 通过sparksql查询能力https://blog.csdn.net/qq_61414097/article/details/140999898

以下是 Kettle 的基础详解：

1. 主要功能

数据抽取（Extract）： 从不同的数据源（如数据库、文件、Web 服务等）中提取数据。

数据转换（Transform）： 对提取的数据进行清洗、格式转换、聚合等操作，以满足目标数据仓库或数据湖的要求。

数据加载（Load）： 将转换后的数据加载到目标系统中，如数据库、数据仓库或数据湖。

2. 核心组件

Kettle 主要由以下几个核心组件构成：

Spoon: 图形化设计工具，用于创建和调试转换（Transformations）和作业（Jobs）。

Pan: 命令行工具，用于执行转换。

Kitchen: 命令行工具，用于执行作业。

Carte: 轻量级的 Web 服务器，用于远程执行转换和作业。

3. 转换（Transformations）

转换是 Kettle 中的基本操作单元，用于定义数据的提取和转换过程。一个转换由多个步骤（Steps）组成，这些步骤可以是数据输入、数据处理、数据输出等各种操作。

常见的步骤类型包括：

输入步骤: 从不同的数据源读取数据，如文本文件输入、数据库输入、Excel 输入等。

输出步骤: 将数据写入目标系统，如文本文件输出、数据库输出、Excel 输出等。

转换步骤: 对数据进行各种转换操作，如过滤、排序、聚合、查找替换等。

4. 作业（Jobs）

作业用于控制多个转换的执行顺序和条件。作业由多个作业条目（Job Entries）组成，这些条目可以是转换的执行、文件操作、数据库操作、条件判断等。

5. 设计和执行

设计: 使用 Spoon 进行图形化设计，拖放步骤和作业条目，设置其属性，连接各个步骤和条目，形成一个完整的 ETL 流程。

执行: 可以在 Spoon 中调试和执行转换和作业，也可以使用 Pan 和 Kitchen 命令行工具进行批处理执行。

6. 数据源支持

Kettle 支持多种数据源，包括：

关系数据库: 如 MySQL、PostgreSQL、Oracle、SQL Server 等。

文件: 如 CSV、Excel、XML、JSON 等。

大数据平台: 如 Hadoop、Hive、HBase 等。

云服务: 如 AWS、Google Cloud、Azure 等。