Kettle6列拆分为多行步骤详解

1.        前言

本文将对Kettle6中常用步骤列拆分为多行(英文原名:Split Field to Rows)。也就是说,将输入数据行集中的某个列按照条件拆分为多行。这种条件可以是简单的一个分隔符,也可以指定正则表达式。

 

2.        说明

步骤的属性对话框如下图所示:


下面通过一个表格逐项解释每一个对话框中字段的含义。

序号

名称

含义

1

字段名称

标识本步骤的名称。

2

要拆分的字段

从输入数据行集中,挑选需要拆分的字段。

3

分隔符

拆分字段时,使用的分隔符。简单情况下,分隔符划分的每一个字符串片段,都将成为一个新行。

如果4选中,那么这里的分隔符实质是一个正则表达式。

4

分隔符是一个正则表达式

控制3的真实含义。如果选中,3就是正则表达式。否则,不管3中的字符串是何内容,Kettle只是将其当成一个分割文本的字符串。

5

新字段名

分割列后形成的新字段名称。输出数据行集将包含这个新的列,列的值为分割后形成的字符串片段。

6

输出中包含行号

输出数据行集中,是否需要包含行号字段。如果需要,那么应输入这个行号字段的名称。

7

对接收到的每一行重置行号

输出数据行集中的行号,类似于一个序列,从1开始,每行增加1。如果选中7,那么每一个输入行集中的每一行,将独享一个从1开始的序列;否则,所有输入行集中的行共享一个序列。

举例来说,假设输入数据行集中有2行,第一行拆分为3行,第二行拆分为2行。如果选中7,那么产生的行号是1 2 3 1 2;如果未选中7,那么产生的行号是1 2 3 4 5。

 

3.        实战

假设从输入数据行集中拿到如下数据:


需要把其中所有市、区、县的名称得到,依次按行处理。

可以看出,来源数据实际上只有一行,但是想得到的结果是多行,这就需要用到列拆分为多行步骤。步骤的具体设置可以参照文章开始的第一个图,通过上述步骤,这一行被拆分为以下行:


注意上图,其中第一行为空。其实这应属Kettle6的一个bug。如果分割列的正则表达式正好满足来源行的头部,那么分割结果中将产生一个空行!

如果要解决这个bug,可以往下阅读附录部分。

 

4.        附录

解决第3部分实战中第一个行数据为空的bug,可以在类:

org.pentaho.di.trans.steps.splitfieldtorows.SplitFieldToRows

的方法splitField中增加以下代码(117行后):

 

if(splitStrings.length>1&& StringUtil.isEmpty(splitStrings[0])){

           String[] handledStrings = new String[splitStrings.length-1];

System.arraycopy(splitStrings, 1, handledStrings, 0, handledStrings.length);

           splitStrings = handledStrings;

}

 

这样可在输出到目标数据行集前将第一个空行处理掉。

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值