SPSS Modeler 缺失值的自动化处理(指南 第七章)

本文介绍了一种处理数据集中缺失值的有效方法,通过筛选并丢弃包含空字符串的记录,以及利用均值填充连续型变量的空白值,确保数据集的质量和完整性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
前面,小编和大家一起使用数据审核报告找出缺失值,接下来需要对缺失值进行处理。

根据上一节的案例,其中有两类缺失值,一类是名义变量“Car_Owner”的空字符串,一类是连续型变量“Age”的空白值。

案例:数据文件Customers(缺失).xlsx。

数据流:
在这里插入图片描述
数据展示:
在这里插入图片描述
2070条记录。

1. 空字符串的处理

一般缺失值筛选出来进行丢弃或填充。本例中,选择将其丢弃。

1.1 数据审核产生质量分析报告

在这里插入图片描述
生成选择节点中设置:
在这里插入图片描述

1.2 重新运行数据审核

自动生成缺失值“选择”节点,如下:
在这里插入图片描述
将选择节点连接到“类型“节点后:
在这里插入图片描述

1.2 已生成节点

缺失值“选择”节点,即已生成节点:
在这里插入图片描述
在这里插入图片描述
在已生成节点中选择包括,查看存在缺失值的记录:
在这里插入图片描述
在已生成节点中选择丢弃,查看丢弃缺失值后的记录:
在这里插入图片描述

2. 空白值的处理

2.1 查看缺失值

在“类型”节点中定义缺失值后,重新运行数据审核:
在这里插入图片描述
发现Age字段存在2个缺失值,生成“缺失值选择节点”,即“已生成”节点。
在这里插入图片描述
在这里插入图片描述
对存在Age缺失值的记录进行输出:
在这里插入图片描述
发现ID为3806、3821的记录,Age字段缺失。

2.2 缺失值填充

一般可以用缺失值插补的方法填充。
数据审核节点可以帮助用户自动对空白值进行选择插补。

在这里插入图片描述
在这里插入图片描述
点击“缺失值超节点”后,自动形成“缺失值插补”节点。
在这里插入图片描述
在这里插入图片描述
对缺失值插补后的数据进行输出查看:
在这里插入图片描述
发现ID为3806、3821的记录,Age字段被填补为均值42.767。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值