kettle连接不上es7_kettle常见问题解决

最新推荐文章于 2024-06-26 10:50:38 发布

weixin_39528000

最新推荐文章于 2024-06-26 10:50:38 发布

阅读量1.1k

点赞数

文章标签： kettle连接不上es7

本文链接：https://blog.csdn.net/weixin_39528000/article/details/112043017

版权

摘要：本文主要讨论如何在你自己的Java应用程序中集成Kettle

如果你需要在自己的Java应用程序中集成Kettle , 一般来说有两种应用需求，一种是通过纯设计器来设计ETL转换任务，然后保存成某种格式，比如xml或者在数据库中都可以，然后自己调用程序解析这个格式，执行这种转换，是比较抽象的一种执行方式，ETL里面转换了什么东西我们并不关心，只关心它有没有正常执行。另一种是通过完全编程的方式来实现，详细的控制每一个步骤，需要知道转换执行的成功与否，这种方式可能需要更多的理解kettle的API 以便更好的跟你的应用程序紧密结合，不过难度也比较大，可以很好的定制你的应用程序，代价自然是入门门槛比较高。本文主要向你解释第一种Kettle的集成方式，文中所列出的代码节选自pentaho ，不过应用程序本身跟pentaho 没有什么关系。

Pentaho 集成kettle的代码主要是两个类，KettleSystemListener和 KettleComponent,看名字就猜出KettleSystemListener 主要是起监听器的作用，它主要负责初始化kettle的一些环境变量，这个类主要包含四个方法: startup() , readProperties(),environmentInit(),shutdown(),程序入口自然是startup()方法，然后它会调用 environmentInit() 方法，这个方法就调用readProperties()方法读一个配置文件kettle.properties,这个文件主要记录者kettle运行时可以调用的一些环境变量，关于kettle.properties文件怎么用，第二篇文章“使用Kettle设计动态转换”有提到，readProperties()方法读完这个文件之后就把里面的键值对转换成变量传给kettle运行环境.当kettle运行完了之后就调用 shutdown()方法结束转换. KettleSystemListener相对逻辑比较简单，就不多介绍，下面主要介绍重点类：

KettleComponent

KettleComponent的方法主要有三种类型，一类是用来初始化工作，做一些验证工作，第二类是执行转换的方法，也是主要需要讨论的方法，第三类是取得数据结果的，有时候你需要得到转换的结果交给下一个步骤处理.下面分别讨论这三类方法。

初始化

KettleComponent的初始化工作主要是验证这个转换，包括有 validateSystemSettings()，init()，validateAction()，全部都是public 方法，validateSystemSettings()会检查kettle 使用何种方式来连接资源库。

kettle有两种方式连接资源库，一种是纯数据库式，也就是你所有的转换全部都保存在一个数据库中，一般你在开始使用kettle的时候，它都会要求你建立一个资源仓库，这个资源仓库的连接方式就是你的数据库连接，你需要能够有相应的数据库驱动和对应的连接用户名和密码。另外一种连接方式是使用文本文件，也就是xml文件，在做完任何转换之后，我们都可以把转换或者Job变成xml文件输出，这个输出文件包含你所有转换的全部信息。

在示例应用中使用的是文件的连接方式，下面看一下初始化的一段代码:

Boolean useRepository = PentahoSystem.getSystemSetting("kettle/settings.xml",

"repository.type","files").equals("rdbms");

PentahoSystem.getSystemSetting()方法只是返回一个字符串，使用的xpath读一个xml的对应字段，下面列出settings.xml文件：

files

admin

可以看到其中的repositories.xml.file 上面的一段注释，如果这个值为空会默认使用$HOME/.kettle/repository.xml文件当作资源库的连接文件，由于示例中使用的是文本文件所以没有用数据库连接，下面的repository.userid和repository.password是指的kettle的资源库连接的用户名和密码，一般默认安装就两个，admin/admin 和guest/guest , 这里的用户名和密码不是连接数据库的用户名和密码，连接数据库的用户名和密码是在另外一个文件repositories.xml.file指定的值所定义的

一般默认的kettle安装并且运行了一段时间之后，会在$HOME/.kettle 目录下创建一些文件，如果你要在自己的系统中集成kettle的话，也需要保留这些文件，当然不一定位置是在原来的位置，关键是要让kettle知道这些文件放在哪。

执行转换

当读完了这些配置文件并且验证了之后，KettleComponent就开始把前面读到的转换文件或者资源库类型变成Kettle的API,这主要是在executeAction()方法里面进行，它当然根据连接方式也分两种执行类型：

1. 文本执行方式

2. 资源库连接方式

文本执行方式需要接受一个你指定的运行转换的文件或者Job的文件,然后把这个xml文件解析成Kettle能够执行的模式，

根据执行的类型又可以分成两种：

1. Trans任务

2. Job任务

两个执行的逻辑差不多，下面先介绍Trans的执行方式：

执行Trans任务

transMeta = new TransMeta(fileAddress, repository, true);

transMeta.setFilename(fileAddress);

然后它会调用:

executeTransformation(TransMeta transMeta, LogWriter logWriter)

这个方法是真正的把前面的来的transMeta转换成trans对象，等待下一步的执行：

Trans trans = new Trans(logWriter, transMeta);

List stepList = trans.getSteps();

for (int stepNo = 0; stepNo < stepList.size(); stepNo++) {

StepMetaDataCombi step = (StepMetaDataCombi) stepList.get(stepNo);

if (step.stepname.equals(stepName)) {

① Row row = transMeta.getStepFields(stepName);

// create the metadata that the Pentaho result set needs

String fieldNames[] = row.getFieldNames();

String columns[][] = new String[1][fieldNames.length];

for (int column = 0; column < fieldNames.length; column++) {

columns[0][column] = fieldNames[column];

}

② MemoryMetaData metaData = new MemoryMetaData(columns, null);

results = new MemoryResultSet(metaData);

// add ourself as a row listener

③ step.step.addRowListener(this);

foundStep = true;

break;

}

1. Row对象是kettle用来表示一行数据的标准对象，跟jdbc取出来的一条数据转化后成为的一个POJO是一样的。里面可以包含多个字段。

2 . MemoryMetaData对象是pentaho特有的，是专门用来返回ETL任务执行后的结果的，与标准的JDBC里面的resultSet 对应的resultSetMetaData 是一样的。

3. 对于如何处理数据的一个Listener,实现的是一个RowListener,数据是每一行每一行处理的，后面会介绍如果需要输出数据怎么取得这些输出数据。如果不需要放回任何对象，则从1处开始都可以不要，只要初始化step对象即可。

所有的step对象都已经初始化之后就可以开始执行了，

trans.startThreads();

trans.waitUntilFinished();

结束之后还有一些清理工作就不列出了。

执行Job任务

执行Job任务之前还是会读取Job任务的描述文件，然后把这个描述文件(kettle的 .ktr文件)变成一个xml文档的dom ：

org.w3c.dom.Document doc = XmlW3CHelper.getDomFromString(jobXmlStr);

之后也是初始化对应的元数据对象JobMeta

jobMeta = new JobMeta(logWriter, doc.getFirstChild(), repository);

得到了jobMeta 之后就可以执行这个Job了，这里跟trans是一样的。

job = new Job(logWriter, StepLoader.getInstance(), repository, jobMeta);

由于Job一般都没有什么返回值，所以Job不需要初始化它下面的对象，直接开始运行就可以了

job.start();

job.waitUntilFinished(5000000);

连接资源库

连接资源库使用的是connectToRepository()方法,先取得RepositoriesMeta对象，然后根据你在setting.xml文件里面定义的repository的名字来连接对应的repository.理论上来说我们一般都只使用一个 repository ,但如果在产品中需要使用多个repository的话，你需要自己配置多个repository的名字和对应的用户名和密码。只列出几行关键代码，

repositoriesMeta = new RepositoriesMeta(logWriter);

repositoriesMeta.readData(); // 从$HOME/.kettle/repositories.xml 读数据.

repositoryMeta = repositoriesMeta.findRepository(repositoryName);

repository = new Repository(logWriter, repositoryMeta, userInfo);

userInfo = new UserInfo(repository, username, password);

从资源库读取Trans

连接到资源库之后自然是想办法读取数据库的表，把里面的记录转换成为Trans 对象，使用的是loadTransformFromRepository,这个方法的函数原型需要解释一下：

TransMetaloadTransformFromRepository(String directoryName, String transformationName, Repository repository,LogWriter logWriter)

第一个参数String directoryName 代表是你储存转换的目录，当你使用kettle 图形界面的时候，点击repository菜单的explorer repository , 你会发现你所有的东西都是存

最低0.47元/天解锁文章

weixin_39528000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kettle连接不上es7_kettle常见问题解决

摘要：本文主要讨论如何在你自己的Java应用程序中集成Kettle如果你需要在自己的Java应用程序中集成Kettle , 一般来说有两种应用需求，一种是通过纯设计器来设计ETL转换任务，然后保存成某种格式，比如xml或者在数据库中都可以，然后自己调用程序解析这个格式，执行这种转换，是比较抽象的一种执行方式，ETL里面转换了什么东西我们并不关心，只关心它有没有正常执行。另一种是通过完全编程的方式来...
复制链接

扫一扫