kettle使用记录

最新推荐文章于 2024-07-31 11:18:40 发布

m_0307

最新推荐文章于 2024-07-31 11:18:40 发布

阅读量3.9k

点赞数 2

分类专栏： kettle 文章标签： kettle

本文链接：https://blog.csdn.net/M_0307/article/details/69398422

版权

Kettle是一款强大的ETL工具，支持数据抽取、转换和装载。本文介绍了Kettle的下载路径、功能、应用场景和学习要点，包括如何配置环境、创建数据库连接、构建数据转换和作业Job，以及展示了从一个数据库到另一个数据库的数据同步实例。

摘要由CSDN通过智能技术生成

一：下载路径

当你要学习一个工具时，往往一开始就找不到下载路径，也不知道是为什么，连个官网都找不到，最后还是问的别人要的路径，做程序好心酸。

http://community.pentaho.com/projects/data-integration 下载路径

二：学习

kettle是什么？

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。kettle支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，其中最主要的我们通过熟练的应用它，减少了非常多的研发工作量，提高了我们的工作效率.

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

为什么使用kettle?

这里简单概括一下几种具体的应用场景，按网络环境划分主要包括：

表视图模式：这种情况我们经常遇到，就是在同一网络环境下，我们对各种数据源的表数据进行抽取、过滤、清洗等，例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式；传统的实现方式一般都要进行研发（一小部分例如两个相同表结构的表之间的数据同步，如果sqlserver数据库可以通过发布/订阅实现），涉及到一些复杂的一些业务逻辑如果我们研发出来还容易出各种bug；
前置机模式：这是一种典型的数据交换应用场景，数据交换的双方A和B网络不通，但是A和B都可以和前置机C连接，一般的情况是双方约定好前置机的数据结构，这个结构跟A和B的数据结构基本上是不一致的，这样我们就需要把应用上的数据按照数据标准推送到前置机上，这个研发工作量还是比较大的；
文件模式: 数据交互的双方A和B是完全的物理隔离，这样就只能通过以文件的方式来进行数据交互了，例如XML格式，在应用A中我们开发一个接口用来生成标准格式的XML，然后用优盘或者别的介质在某一时间把XML数据拷贝之后，然后接入到应用B上，应用B上在按照标准接口解析相应的文件把数据接收过来；

综上3种模式如果我们都用传统的模式无疑工作量是巨大的，那么怎么做才能更高效更节省时间又不容易出错呢？答案是我们可以用一下Kettle-_-！

使用kettle需要了解的知识？

ž1 Kettle使用

Kettle提供了资源库方式的方式来整合所有的工作，但是因为资源库移植不方便，所以我们选择没有资源库；

1）创建一个新的transformation，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestTrans，kettle默认transformation文件保存后后缀名为ktr；

2）创建一个新的job，点击保存到本地路径，例如保存到D:/etltest下，保存文件名为EtltestJob，kettle默认job文件保存后后缀名为kjb；

2 组件树介绍

Main Tree菜单列出的是一个transformation中基本的属性，可以通过各个节点来查看。

DB连接：显示当前transformation中的数据库连接，每一个transformation的数据库连接都需要单独配置。

Steps：一个transformation中应用到的环节列表

Hops：一个transformation中应用到的节点连接列表　　　　　　　　　　　　　　　　　　　　　　　　　　　　

Core Objects菜单列出的是transformation中可以调用的环节列表，可以通过鼠标拖动的方式对环节进行添加。

Input：输入环节

Output：输出环节

Lookup：查询环节

Transform：转化环节

Joins：连接环节

Scripting：脚本环节

4.3 Transformation转换介绍

ž每一个环节可以通过鼠标拖动来将环节添加到主窗口中。

ž并可通过shift+鼠标拖动，实现环节之间的连接。

ž转换常用环节介绍

类别	环节名称	功能说明
Input	文本文件输入	从本地文本文件输入数据
	表输入	从数据库表中输入数据
	获取系统信息	读取系统信息输入数据
Output	文本文件输出	将处理结果输出到文本文件