目前在做一个项目,需要用到数据清洗,因为kettle是开源的,所以就选择了它。目前遇到的困难是,在创建好转换(transformation)或任务(job)后,需要集成到java代码中,以便和其他功能结合。由于网上很多例子的kettle版本是4.x以及5.0左右的,而kettle 6.0版本较之前有了很大改动,这些java代码已经不适合用于kettle 6.0了。经过在网上查资料、加QQ群询问以及在论坛里查找资料和提问之后,终于解决了如何让java通过kettle 6.0版本调用转换和job。
1,需要哪些jar包
kettle开头的包都需要,也许这个项目有些包不用,但最好加进去。另外guava、metastore和mysql-connector包也是必须的,不然程序会报错。其他包自己看着加入吧
2,在spoon上创建转换或job
在这里就不叙述了,我有时间会在另一篇博客中记录如何使用spoon上的控件创建转换和job。有需要可以看看。
3,java代码示例
<span style="font-size:18px;">package com.fan.custom;
import org.pentaho.di.core.KettleEnvironment;
import org.pentaho.di.core.exception.KettleException;
import org.pentaho.di.trans.Trans;
import org.pentaho.di.trans.TransMeta;
public class ExistTrans {
public static void runTransformation() {
try {
String filename = "C:\\Users\\Francis\\Desktop\\table.ktr";
// StepLoader.init();
// EnvUtil.environmentInit();
KettleEnvironment.init();
TransMeta transMeta = new TransMeta(filename);
Trans trans = new Trans(transMeta);
trans.execute(null); // You can pass arguments instead of null.
trans.waitUntilFinished();
if (trans.getErrors() > 0) {
throw new RuntimeException(
"There were errors during transformation execution.");
}
} catch (KettleException e) {
// TODO Put your exception-handling code here.
System.out.println(e);
}
}
public static void main(String[] args) {
runTransformation();
}
}
</span>