ETL第五章案例

案例一:消除CSV文件merge.csv中完全重复的数据

1.创建如图所示的转换

 2.配置CSV文件输入控件

预览数据

3.配置唯一行(哈希值控件) 

 4.运行转换

 

CSV文件merge.csv中的完全重复数据已被消除

案例二:去重people.txt中不完全重复的数据

1.创建如下图所示的转换

2.配置文本文件输入控件

 在“文件”选项卡中添加目标文件people.txt

“内容”选项卡如图配置

“字段”选项卡如下图配置 预览记录 

 

3.配置唯一行(哈希值)控件

4.运行转换

 文件people.txt中不完全重复的数据已被消除

案例三:清洗revenue.txt文件缺失值

1.创建如下图所示的转换

2.配置文本文件输入控件

  

 预览数据

 3.配置字段选择控件

 

 4.配置过滤记录控件

5. 配置Excel输出控件

6.运行转换

 案例四:填充people_survey.txt中的缺失值

1.创建如下图所示的转换

 2.配置文本文件输入控件

  预览记录

 3.配置过滤记录控件

4. 配置替换NULL值控件

 5.配置合并记录控件

6.配置替换NULL值2控件

 7.配置字段选择控件

 8.运行转换

 案例五:去除文件temperature.txt中的异常值

1.创建如下图所示的转换

2.配置文本文件输入控件

  预览数据

3.配置过滤记录控件

4.运行转换 

空操作1

 空操作2

 案例六:替换和修改数据表interpolation_data中的异常值

1.创建如下图所示的转换

 2.配置表输入控件

3.过滤记录控件

4.配置设置值为NULL控件

5.配置合并记录控件

6.配置替换NULL值控件

7.配置字段选择控件

8.运行转换

 查看异常值是否被修改并替换

 案例七:数据一致性处理

1.创建如下图所示的转换

2.配置表输入控件

3.配置值映射控件

4.配置插入更新控件

5.运行转换 

 案例八:数据规范化处理

1.创建如下图所示的转换

 2.配置自定义常量数据控件

3.配置计算器控件

4.配置数据检验配件

5.运行转换

空操作2中已检验出不符合校验规则的数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值