1. ETL工具Kettle的查询、连接和映射
在ETL工具中,查询、连接和映射各自的作用包括:
- 查询步骤:用来查询数据源中的数据并合并到主数据流中
- 连接步骤:将结果集合通过关键字进行连接
- 子转换/映射:在转换里调用一个子转换,便于封装和重用
2. 查询步骤
在Kettle工具中,查询步骤常见的方式包括:流查询、模糊匹配、数据库查询、Web查询等等。
- 流查询
- 只支持“==”的查询
- 如果匹配上多条,只保留最后一条
- 如果没有匹配上,只保留字段值为NULL
- 模糊匹配
- 只支持单列的查询
- 匹配相似度最大的字符串
- 自定义匹配的取值范围
- 支持的模糊匹配算法Jaro,Jaro Winkler, Levenshtein等
- 数据库查询
- 只返回一行
- 如果有多行结果:
- 如果有多行结果:字符串模糊匹配,相似读最高一条
- 对数据流的每条记录都要做一次数据库查询,效率低
- 数据库查询(加载所有数据到缓存)=表输入+流查询
kettle数据库查询操作相关的图标如图所示:
- Web查询
- HTTP客户端:使用GET的方式提交请求。(URL、参数名、参数值)
- 使用POST方式提交请求,获得返回的页面内容
3. 连接步骤
在Kettle工具中,连接步骤主要包括记录集连接和记录关联操作:
- 记录集连接:两个记录集做左连接、右连接、内连接、外连接
- 两个记录集做笛卡尔乘积,如果速度慢,调整main step
4. 子转换/映射操作
- 创建子转换的过程:对映射输入接口和输出接口进行操作,具体步骤如下:
- 映射输入接口:多个输入列,作为接口。输入列可以友调用的转换输入。
- 映射输出接口:不用做任何设置,并向调用的转换输出所有列。
- 调用子转换
- 指定子转换位置
- 传入命名惨呼和变量
- 传入输入列
- 接收输出列