概述
数据剖析和数据检验:用于数据的检查、清洗 。
统计步骤:提供数据采样和统计的功能。
分区:根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。
脚本:Javascript 基础
数据剖析和数据检验
1.数据剖析
分析原始数据的数据类型、长度、值域等,属于ETL的第一步
kettle中使用DataCleaner进行数据剖析
首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.action?pageId=23533803
2.数据校验
示例可以查看samples,可以配置例如错误代码,字典表校验等:
一个简单的检验如下:
也可以后面接SWITCH CASE,通过错误代码等进