四十四、ETL工具的查询_连接和映射

1. ETL工具Kettle的查询、连接和映射

在ETL工具中,查询、连接和映射各自的作用包括:

  • 查询步骤:用来查询数据源中的数据并合并到主数据流中
  • 连接步骤:将结果集合通过关键字进行连接
  • 子转换/映射:在转换里调用一个子转换,便于封装和重用

2. 查询步骤

在Kettle工具中,查询步骤常见的方式包括:流查询、模糊匹配、数据库查询、Web查询等等。

  • 流查询
    1. 只支持“==”的查询
    2. 如果匹配上多条,只保留最后一条
    3. 如果没有匹配上,只保留字段值为NULL
  • 模糊匹配
    1. 只支持单列的查询
    2. 匹配相似度最大的字符串
    3. 自定义匹配的取值范围
    4. 支持的模糊匹配算法Jaro,Jaro Winkler, Levenshtein等
      在这里插入图片描述
  • 数据库查询
    1. 只返回一行
    2. 如果有多行结果:
    3. 如果有多行结果:字符串模糊匹配,相似读最高一条
    4. 对数据流的每条记录都要做一次数据库查询,效率低
    5. 数据库查询(加载所有数据到缓存)=表输入+流查询

kettle数据库查询操作相关的图标如图所示:
在这里插入图片描述

  • Web查询
    1. HTTP客户端:使用GET的方式提交请求。(URL、参数名、参数值)
    2. 使用POST方式提交请求,获得返回的页面内容
      在这里插入图片描述

3. 连接步骤

在Kettle工具中,连接步骤主要包括记录集连接和记录关联操作:

  • 记录集连接:两个记录集做左连接、右连接、内连接、外连接
    在这里插入图片描述
  • 两个记录集做笛卡尔乘积,如果速度慢,调整main step
    在这里插入图片描述

4. 子转换/映射操作

  • 创建子转换的过程:对映射输入接口和输出接口进行操作,具体步骤如下:
    1. 映射输入接口:多个输入列,作为接口。输入列可以友调用的转换输入。
    2. 映射输出接口:不用做任何设置,并向调用的转换输出所有列。
  • 调用子转换
    1. 指定子转换位置
    2. 传入命名惨呼和变量
    3. 传入输入列
    4. 接收输出列
      在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值