Kettle
JNSimba
腹有诗书气自华,快叫我长胖一点吧~~~~~
展开
-
【0】Kettle概述
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。...原创 2018-01-09 11:23:21 · 461 阅读 · 0 评论 -
【1】Kettle输入输出
输入最常用的输入便是表输入了。1.读取表数据,首先建立数据库连接。点击:文件-->新建→数据库连接填写相关信息,如下2.选择表输入3.双击表输入组件,填写相关信息。点击预览可查看sql执行结果输出输出可为 文件、其他数据库,HDFS、HBase等输出文件4.填写文本文件输出组件的信息输出表中5.选择插入更新组件,选择要插入的表的连接信息输出为HDFS文件同文本文件输出,只不过需要指定Hado...原创 2018-02-23 10:01:51 · 1605 阅读 · 0 评论 -
【2】Kettle常用组件
剪切字符串Concat Field :拼接字段值映射字符串替换:可使用固定字符串替换,或者正则表达式替换增加常量:给输出增加其他字段字段选择:用于筛选输出的字段,或者更改输出格式(元数据页)过滤记录写日志:可用于调试使用...原创 2018-02-23 10:14:11 · 1746 阅读 · 0 评论 -
【3】Kettle记录集连接
多表的JOIN,可以直接用Sql写入 【表输入】 组件,也可以借助Kettle提供的【记录集连接】组件使用Kettle的记录集连接组件,必须首先要两个输入数据集是有序的,并且是根据需要Join的字段排序,这里可以借助Kettle的【排序记录】组件1.将两个数据集根据要Join的字段进行排序2.然后选择记录集连接组件,填写相关信息原创 2018-02-23 10:57:31 · 6049 阅读 · 0 评论 -
【4】Kettle中嵌入Sql脚本、Java、JS
Sql脚本一些复杂的逻辑,难以用Kettle自带组件完成,可以使用sql语句完成,借助Kettle的【执行Sql脚本】组件Java以及JS1.可以将java代码直接打成Jar包,放入Kettle的 lib目录2.然后使用Js调用Jar包,得到结果。3. 也可以使用Kettle 自带的Java原创 2018-02-23 11:04:16 · 1370 阅读 · 0 评论 -
【5】Kettle作业Demo
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。前面说到的都是在一个转换内处理。最终一个转换处理完成后,需要构建一个工作流Job。Demo:运行一个转换,如果期间运行错误,则将错误日志发送邮件给关注者执行成功,什么都不做1.新原创 2018-02-23 11:09:29 · 2763 阅读 · 0 评论 -
Kettle记录集合RowSet数量
kettle步骤通信kettle调优中有个重要的参数:记录集合里面的记录数。该数量是指组件与组件之间通信的【缓存队列】的size大小,Kettle内部用List实现该缓存队列,每一条语句都会被封装成一个 RowSet对象,如下图所示,每个组件之间都会有个List<RowSet>队列,源step每次会往该队列写一条数据,目标step每次会从队列读取一条数据。影响kettle里面转换是并行...原创 2018-06-06 20:07:16 · 7912 阅读 · 0 评论