完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。
数据准备
打开Kettle
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。
通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。
数据准备
打开Kettle