数据对接—kettle使用之六

        前面介绍了表输入的插件,我们可以用它来查询数据库表里的数据,那如果数据不在数据库里我们是不是没没有办法获取了呢?答案是否定的,这个软件还提供了其它的插件可以让我们轻松的获取excel、xml、文本文件等文件里的数据 ,下面我们就一起来简单的了解一下这些插件:

文本文件输入:

1、 没有空行:不往下一步骤发送空行

2、 输出包括文件名:输出包含文件名字段

3、 输出包含行数:输出字段包含行号

4、 格式:可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。混合模式则不验证。

5、 编码方式:默认编码方式。Unicode编码方式有Utf-8,utf-16

6、 记录数量限制:设置读取记录的行数,0表示所有的。

7、 解析日期时是否严格要求:启用时1月32将变为2月1号

8、 错误处理标签:当错误发生时,错误处理标签可以允许你指定这个步骤将重新做些什么。

9、 忽略错误

10、跳过错误行:如果不跳过错误行,解析错误字段将是空的。

11、错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数。

12、错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称。

13、错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述。

14、警告文件目录:当警告发生时,文件将被放进该目录,文件名为:文件名。<日期时间>.<错误文件扩展>

15、错误文件目录:当错误发生时,文件将被放进该目录,文件名为:文件名.<日期时间>.<错误文件扩展>

16、失败行数文件目录:当解析发生错误,行号将被放进该目录,文件名将是:文件名.<日期时间>.<错误行扩展>

17、过滤标签:可以用来指定文件文件中要过滤的行。

18、过滤字符串:搜索字符串,将符合条件的行从输出中去掉。

19、过滤器位置: 0:起始位置。不填(<0):表示搜索整个字符。

20、停止在过滤器:如果想在文本文件遇到过滤字符时停止处理,就指定“Y”。


EXCEL输入

1、  工作表名称

2、  起始行 :开始读取的行。

3、  起始列:开始读取的列。

4、  头部:检查工作表是否指定了一个头部行。

5、  非空记录:检查是否不需要空行输出。

6、  停在空记录:当遇空行时停止读取。

7、  文件名称字段:步骤输出指定一个包含文件名的字段。

8、  工作表名称字段:步骤输出指定一个包含工作表名称的字段。

9、  行号列:指定输出行号列字段名称。


XML输入

1、  Loop XPath:选择/Rows/Row

2、  Ignore comments:忽略注释

3、  Validate XML:验证XML ,一般不验证

4、  Ignore empty file:忽略空文件

5、  Include filename in output:输出步骤包含文件名字段

6、  Rownum in output:输出包含行号字段。


Cube输入

         从二进制KettleCube文件中读取数据行


还有很多数据输入插件,比如:Microsoft Access Input、Mondrian Input、LDIF Input、Email messages input、MongoDB Input、Property Input、RSS Input、Json Input、OLAP Input、XBase输入等等,这里就不一一介绍了,如果用到了我们可以去深入学习一下,它们的图标如下图:


总结:上面的这些插件基本上可以满足我们获取各种信息来源的数据,通过脚本处理我们还可以将有用的数据输出到指定好的文件中,下一篇我们继续了解输出插件。



  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Kettle是一款开源的ETL(Extract, Transform, Load)工具,用于数据的抽取、转换和加载。使用Kettle可以方便地进行数据的导入、导出、清洗和转换等操作。 要使用Kettle更新数据,可以按照以下步骤进行操作: 1. 安装Kettle:首先需要下载并安装Kettle工具,可以从官方网站(https://sourceforge.net/projects/pentaho/files/Data%20Integration/)下载最新版本。 2. 创建转换(Transformation):在Kettle中,数据处理的基本单位是转换。打开Kettle工具后,点击“新建”按钮创建一个新的转换。 3. 添加数据源:在转换中,首先需要添加数据源。可以通过拖拽“输入”组件到转换面板上,并配置相应的连接信息,如数据库连接、文件路径等。 4. 添加转换步骤:根据需要,可以添加多个转换步骤来对数据进行处理。例如,可以使用“选择字段”步骤来选择需要更新的字段,使用“过滤行”步骤来筛选需要更新的数据等。 5. 添加目标表:在转换中,还需要添加目标表来存储更新后的数据。可以通过拖拽“输出”组件到转换面板上,并配置相应的连接信息和目标表名。 6. 配置更新操作:在目标表组件中,可以设置更新操作的方式。可以选择“插入/更新”来实现根据主键进行更新,或选择“更新”来实现根据指定字段进行更新。 7. 运行转换:配置完成后,点击运行按钮即可执行转换操作。Kettle会根据配置的步骤顺序依次处理数据,并将更新后的数据写入目标表中。 以上是使用Kettle更新数据的基本步骤。当然,Kettle还提供了丰富的功能和组件,可以根据具体需求进行更复杂的数据处理操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值