Kettle入门-简介、连接资源库

最新推荐文章于 2024-07-25 16:07:57 发布

数据牧童

最新推荐文章于 2024-07-25 16:07:57 发布

阅读量829

点赞数

分类专栏： Kettle 文章标签：编辑器大数据

本文链接：https://blog.csdn.net/u010615567/article/details/115406454

版权

Kettle 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Kettle简介

ETL是数据从数据源经过EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）到到目标数据的整体过程，数仓建设过程中不可或缺的一部分，也是数据量增长的重要体现，随着技术的革新以及数据体量的不断增长ETL的局限性也逐渐体现出来，其中IBM公司提出了新的数据处理流程ELT，这个之后有时间可以分析一下。虽然ETL数据处理流程有一定的弊端，但是对于绝大部分大企业及中小企业来说，在新的数据处理流程没有出来之前ETL仍然是数据处理的绝佳途径。大公司凭借自身的实力搭建自己独有的ETL平台工具，对于中小企业来说开源的Kettle是绝佳的ETL工具。

Kettle又称PDI（Pentaho Data Integration），是一款较早的开源ETL工具，也是中小企业最为常用的ETL开发工具，以Java开发，支持跨平台运行，其特性包括：支持100%无编码、拖拽方式开发ETL数据管道；可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源；支持ETL数据管道加入机器学习算法。

Kettle特色功能：

1、无代码拖拽式构建数据管道：通过组件、连线、配置等方式实现数据管道的构建，完成数据的关联、过滤、计算、统计、挖掘、深度学习、格式转换、输出等操作；

2、多数据源对接：支持几乎所有的关系型数据库、大数据集（如HDFS、Hbase、MogoDB等分布式数据库）、部分文件格式、流数据等；

3、数据管道可视化：支持用户在数据管道任何一个步骤对当前数据进行查看，并可以在线以表格和图表（例如：柱状图、饼图等）的输出步骤的数据，支持不落地直接把任何一个步骤的数据以JDBC的方式提供给第三方应用访问；

4、模板化开发数据管道

5、深度支持大数据源

6、可视化计划任务：可以通过spoon客户端可视化配置任务计划

7、数据任务下压Spark集群

8、支持数据挖掘及深度学习

Kettle有三个主要组件：Spoon、Kitchen、Pan

Spoon：是一个图形化的界面，可以让我们用图形化的方式开发转换和作业。Windows选择Spoon.bat；Linux选择Spoon.sh

Kitchen：利用Kitchen可以使用命令行调用Job