1. 什么Kettle? 有什么用?
Kettle是一个国外开源的ETL(抽取数据,经过数据清洗转换,最终加载到自己的数据库)工具,纯java编写,可以在window、linux上运行,提供图形界面来设计etl的转换过程。官方地址下载地址
有什么用:
例子1: 公司B与公司C之间展开了业务合作,C公司需要从B公司获取相关数据,但是发现B公司用的oracle数据库,C公司使用的mysql数据库,这时怎么办?利用kettle从B公司抽取数据到自己的数据库。
例子2: 我要做数据同步,但是2张表的表字段不一样,又怎么办? 利用kettle进行字段映射。
列子3: 我想做个定时任务,每天把会员表的数据导出excel/json/sql,并发送邮件? 利用kettle
............更多的功能,需要你来。总之一句话,它是可以定时执行一个作业,抽取数据/数据清洗分析的工具就ok
2. 下载安装(window)
2. 在向我索要安装包pdi-ce-7.1.0.0-12或者pdi-ce-5.3.0.0-213
3. 解压后,点击
5. 点击Spoon.bat
6.运行界面
3. 转换和作业
转换: 对数据的基础转换
工作: 对多个转换进行流程控制
双击转换即可创建一个转换,如图
DB连接: 当前转换的数据库连接,每一个转换都要单独配置数据连接,可以配置多个,在配置中填写相关的帐号密码,点击测试,如果提示连接成功,表示当前此数据库连接成功。
steps(步骤): 转换中的步骤列表,列如,输入,输出,excel输入,文件输入等
hops(节点连接): 转换中步骤直接的连接列表。 列如,输入--输出之间进行连接起来
input:读取.shp、dbf的数据
输入->Access 输入: 从Microsoft Access“MDB”文件读取 详细说明:https://wiki.pentaho.com/display/EAI/Access+Input
输入->CSV文件输入:从文件中读取数据,详细说明:https://wiki.pentaho.com/display/EAI/CSV+File+Input
输入->Cube 文件输入:从包含行和元数据的二进制Kettle文件中读取行数据,详细说明:https://wiki.pentaho.com/display/EAI/De-serialize+from+file
输入->Excel输入:从Excel文件中读取数据,详细说明:https://wiki.pentaho.com/display/EAI/Excel+Input+(XLS,+XLSX)+including+OpenOffice+Workbooks+(ODS)
输入->CSV文件输入:从文件中读取数据,详细说明:https://wiki.pentaho.com/display/EAI/CSV+File+Input
输入->表输入:从SQL从数据库读取信息,详细说明:https://wiki.pentaho.com/display/EAI/Table+Input
------更多的输入---------
输出->表输出:将转换后的数据加载到数据库表中 详细说明:https://wiki.pentaho.com/display/EAI/Table+Output
输出->Excel输出:将转换后的数据写入excel表格中 详细说明:https://wiki.pentaho.com/display/EAI/Excel+Output