1. ETL工具Kettle的输入步骤
1.1 Kettle输入步骤主要分为以下几类:
- 生成记录和自定义常量。
- 获取系统信息
- 输入方式
2 生成记录和自定义常量
2.1 Kettle组件生成记录
- 生成记录的每行数据都是相同的,所以便诞生了自定义常量数据来手工模拟数据。
2.2 Kettle组件自定义常量
- 用于生成自定义的数据
- 一般用于测试数据的构建
3 获取系统信息
获得各类系统信息,常见的包括:
- 转换开始时间
- 关键时间点信息
- 最多十个命令行参数
- 主机名/ip/进程号/虚拟机内存等
- 上一个作业的完成情况参数
4 Kettle的输入方式
4.1 表输入
- 执行select语句,从数据库中获取数据
- 可以通过?和${var}方式使用变量
- ?变量要求前面步骤传来的参数的熟悉一致
- 表输入的数据类型如何和Kettle数据类型对应 ResultSetMetaData
4.1 文本文件输入
- 文本文件输入
- 处理有列分隔符(限定符、逃逸字符)的文本文件
- 功能选项丰富、有错误处理机制
- CSV文件输入
- 简化了文本文件输入
- 通过NIO、并行、延迟转换提高性能
- 固定宽度文件输入
- 列固定宽度的文件,不用解析字符串,性能好。
XML文件输入(DOM方式)
- 自动选择XMLPath循环路径
- 优点:使用简单
- 缺点:不能使用大XML文件,占用内存
XML文件输入(流方式方式)
- 自动选择XMLPath循环路径
- 优点:可用于处理大的XML文件
- 缺点:使用较复杂,要写脚本或Java程序,有一定使用难度。
JSON输入方式
- 直接选地本地输入
- 从上个步骤传递文件名
- JSON Path需要手动设置
使用较复杂,要写脚本或Java程序,有一定使用难度。
JSON输入方式
- 直接选地本地输入
- 从上个步骤传递文件名
- JSON Path需要手动设置