案例一:消除CSV文件merge.csv中完全重复的数据
1.创建如图所示的转换
2.配置CSV文件输入控件
预览数据
3.配置唯一行(哈希值控件)
4.运行转换
CSV文件merge.csv中的完全重复数据已被消除
案例二:去重people.txt中不完全重复的数据
1.创建如下图所示的转换
2.配置文本文件输入控件
在“文件”选项卡中添加目标文件people.txt
“内容”选项卡如图配置
“字段”选项卡如下图配置 预览记录
3.配置唯一行(哈希值)控件
4.运行转换
文件people.txt中不完全重复的数据已被消除
案例三:清洗revenue.txt文件缺失值
1.创建如下图所示的转换
2.配置文本文件输入控件
预览数据
3.配置字段选择控件
4.配置过滤记录控件
5. 配置Excel输出控件
6.运行转换
案例四:填充people_survey.txt中的缺失值
1.创建如下图所示的转换
2.配置文本文件输入控件
预览记录
3.配置过滤记录控件
4. 配置替换NULL值控件
5.配置合并记录控件
6.配置替换NULL值2控件
7.配置字段选择控件
8.运行转换
案例五:去除文件temperature.txt中的异常值
1.创建如下图所示的转换
2.配置文本文件输入控件
预览数据
3.配置过滤记录控件
4.运行转换
空操作1
空操作2
案例六:替换和修改数据表interpolation_data中的异常值
1.创建如下图所示的转换
2.配置表输入控件
3.过滤记录控件
4.配置设置值为NULL控件
5.配置合并记录控件
6.配置替换NULL值控件
7.配置字段选择控件
8.运行转换
查看异常值是否被修改并替换
案例七:数据一致性处理
1.创建如下图所示的转换
2.配置表输入控件
3.配置值映射控件
4.配置插入更新控件
5.运行转换
案例八:数据规范化处理
1.创建如下图所示的转换
2.配置自定义常量数据控件
3.配置计算器控件
4.配置数据检验配件
5.运行转换
空操作2中已检验出不符合校验规则的数据