
前面,小编和大家一起使用数据审核报告找出缺失值,接下来需要对缺失值进行处理。
根据上一节的案例,其中有两类缺失值,一类是名义变量“Car_Owner”的空字符串,一类是连续型变量“Age”的空白值。
案例:数据文件Customers(缺失).xlsx。
数据流:

数据展示:

2070条记录。
1. 空字符串的处理
一般缺失值筛选出来进行丢弃或填充。本例中,选择将其丢弃。
1.1 数据审核产生质量分析报告

生成选择节点中设置:

1.2 重新运行数据审核
自动生成缺失值“选择”节点,如下:

将选择节点连接到“类型“节点后:

1.2 已生成节点
缺失值“选择”节点,即已生成节点:


在已生成节点中选择包括,查看存在缺失值的记录:

在已生成节点中选择丢弃,查看丢弃缺失值后的记录:

2. 空白值的处理
2.1 查看缺失值
在“类型”节点中定义缺失值后,重新运行数据审核:

发现Age字段存在2个缺失值,生成“缺失值选择节点”,即“已生成”节点。


对存在Age缺失值的记录进行输出:

发现ID为3806、3821的记录,Age字段缺失。
2.2 缺失值填充
一般可以用缺失值插补的方法填充。
数据审核节点可以帮助用户自动对空白值进行选择插补。


点击“缺失值超节点”后,自动形成“缺失值插补”节点。


对缺失值插补后的数据进行输出查看:

发现ID为3806、3821的记录,Age字段被填补为均值42.767。
本文介绍了一种处理数据集中缺失值的有效方法,通过筛选并丢弃包含空字符串的记录,以及利用均值填充连续型变量的空白值,确保数据集的质量和完整性。
3328

被折叠的 条评论
为什么被折叠?



