Kettle数据清洗-期末考试成绩
目标
(1) 请以“学号”字段开展查重判断,舍弃重复学号的记录;
(2) 语文、数学满分150分,生物满分100分,请分析数据异常值,检测出各科目异常值,并使用“0”替代异常值;
操作步骤
1.新建转换
2.配置Excel输入组件
进入“Excel输入”界面,点击“浏览”按钮,弹出“选择文件”框,在其中找到文件“期末考试成绩.xls”文件,选中后点击“open”按钮
点击“增加”按钮
点击“字段”,配置如图
配置完成后点击“预览记录”按钮,预览后没有问题,点击“确定按钮”。
3.配置唯一值(哈希值)组件
进入唯一行 (哈希值)界面,配置如图,点击“确定”按钮。
4.配置公式组件
进入公式组件,配置如图:
需要注意的是:单击公式格会弹出公式帮助框,编辑框在弹出框的上面,如图:写入公式,下方无报错,点击“ok”按钮。
最后点击“确定”按钮
5.运行这个转换
运行结果如图:
点击下方“Preview data”可查看清洗后的数据。
新旧数据对比如图:左边为清洗后数据,右边为源数据