1916290141 大数据一班 王多佳
1.对文件merge_csv进行完全去重
使用Kettle工具,创建转换repeat_transform,并添加“CSV文件输入”控件,“唯一行(哈希值)”控件以及Hop连接跳线,如下图所示
配置“CSV文件输入”控件,如下图所示
配置“唯一行(哈希值)”控件,如下图所示
运行转换,如下图所示
从上图的Priview data窗口看,CSV文件中已没有完全重复的数值,说明通过Kettle工具实现了消除完全重复数据的功能。如下图所示
1916290141 大数据一班 王多佳
1.对文件merge_csv进行完全去重
使用Kettle工具,创建转换repeat_transform,并添加“CSV文件输入”控件,“唯一行(哈希值)”控件以及Hop连接跳线,如下图所示
配置“CSV文件输入”控件,如下图所示
配置“唯一行(哈希值)”控件,如下图所示
运行转换,如下图所示
从上图的Priview data窗口看,CSV文件中已没有完全重复的数值,说明通过Kettle工具实现了消除完全重复数据的功能。如下图所示