前面,小编和大家一起使用数据审核报告找出缺失值,接下来需要对缺失值进行处理。
根据上一节的案例,其中有两类缺失值,一类是名义变量“Car_Owner”的空字符串,一类是连续型变量“Age”的空白值。
案例:数据文件Customers(缺失).xlsx。
数据流:
数据展示:
2070条记录。
1. 空字符串的处理
一般缺失值筛选出来进行丢弃或填充。本例中,选择将其丢弃。
1.1 数据审核产生质量分析报告
生成选择节点中设置:
1.2 重新运行数据审核
自动生成缺失值“选择”节点,如下:
将选择节点连接到“类型“节点后:
1.2 已生成节点
缺失值“选择”节点,即已生成节点:
在已生成节点中选择包括,查看存在缺失值的记录:
在已生成节点中选择丢弃,查看丢弃缺失值后的记录:
2. 空白值的处理
2.1 查看缺失值
在“类型”节点中定义缺失值后,重新运行数据审核:
发现Age字段存在2个缺失值,生成“缺失值选择节点”,即“已生成”节点。
对存在Age缺失值的记录进行输出:
发现ID为3806、3821的记录,Age字段缺失。
2.2 缺失值填充
一般可以用缺失值插补的方法填充。
数据审核节点可以帮助用户自动对空白值进行选择插补。
点击“缺失值超节点”后,自动形成“缺失值插补”节点。
对缺失值插补后的数据进行输出查看:
发现ID为3806、3821的记录,Age字段被填补为均值42.767。