检查处理kettle数据流中的空行



检查处理kettle数据流中的空行

 

ETL处理过程中,有时需要生成数据,但是却没有输入数据,这可能有一些问题,所以通常需要ETL数据流产生一个空行数据;有时处理中需要一些聚集功能,则意味着当没有输入数据时,生成值为0;本文说明怎样检测并处理空行数据流。

示例场景

      假设有需求需要读取输入数据代表销售(有三个字段:product产品名称、items_sold销售量、turnover销售金额).ETL处理流程需要计算产品的销售总量及销售总额;这里的处理大概是:从输入文件中读取多行数据,然后使用聚集功能,产生期望的结果。

这种方法有缺陷,因为当没有输入数据时,不产生任何输出数据,在这个示例中,可以切换两个输入的连接线,测试结果。

第一种解决方案:使用group by步骤

     如果使用group by步骤实现聚集,你能设置总返回结果行,即使没有输入,启用“Alwaysgive back a result row”选项。如下图所示:

 

第二种解决方案:使用Detect empty stream步骤(检测空数据流)

     如果这个场景更复杂,字段更多,我们就需要有一般性的解决方案检测空数据流,我们使用“detect empty stream”步骤。连接输入源(源有可能为空)到空步骤,从空步骤拷贝数据到两个分支,其中“detect empty stream”步骤不处理有数据流的行情况,但是没有任何输入行数据时,则创建一行数据且所有字段值为空,该行表示没有数据。

     示例中,可以切换输入连接失效,则没有数据行输入,然后通过javascript步骤手工修改product=none”,item_sold=0,turnover=0.0;如下图所示,当输入数据确实为空时,“detect empty stream”步骤产生一空行,然后被更新为期望的输出。代码下载

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值