工作中用到的ETL

Kettle是一款国外开源的Etl工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
2、 Kettle有两种保存方式:一种是资源库方式(数据库) 一种是文件形式(XML)
3、 Kettle有两种类型Transformation和Job,Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。

Ø Kettle参数
参数是ETL工具使用必须了解的一个问题之一,目前Kettle传参数有两种方式:
1、 Arguments
Arg传参方式是原来3.2以下版本使用的传参方式,是通过command line来传参数,然后使用Get System Info组件接收传入的参数,一共可以传十个参数,目前此种传参数方法已经很少使用了。
2、 Parameters
Param参数只需要知道参数名称然后再通过参数名称付值就行了,参数区分大小写。
Kitchen.bat[sh] –file=test.kjb –PARAM:STARTDATE=VALUE

3、 使用方法
对于参数的使用有两种方法:[%%VAR%%、 VAR]使ETL {VAR}使用的环境是Linux,但考虑程序移植问题一般都使用 VAR {VAR}方式在Windows系统环境下能够识别。

4、 动态参数设置
动态参数可以在Job与Trans中设置,如果是在Trans中设置则需要下一步骤才能使用,如果在当前Trans中使用则会出错。

全局参数设置是在kettle.properties文件中配置,配置方式是键=值方式。
文件路径是在C:\Documents and Settings[UserName].kettle\
脚本获取参数语法:parent_job.getVariable(“param_name”);

6、 参数优先级
参数的优先级也是一个需要关心的一个问题,特别是当全局参数也有值,又动态设置了参数时,或者是Job中定义参数时,这时我们需要知道这个参数的优先级了,下面是参数优先级的一个排序。
Job本身参数à动态参数à全局参数
需要注意的是当Job本身设置了参数,并且也有全局参数,如果Job本身参数为空而全局参数不为空时,那么输出的参数则是为空的。
http://blog.sina.com.cn/s/blog_b82e70870101f4nq.html

Web服务查询
http://blog.csdn.net/a275838263/article/details/51302541

http://f.dataguru.cn/thread-518204-1-1.html

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值