SPSS Modeler 缺失值的自动化处理（指南第七章）

最新推荐文章于 2022-09-27 13:01:03 发布

Yomi JIN

最新推荐文章于 2022-09-27 13:01:03 发布

阅读量9.8k

点赞数 14

分类专栏： IBM SPSS Modeler数据挖掘软件学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24339451/article/details/105417795

版权

IBM SPSS Modeler数据挖掘软件学习笔记专栏收录该内容

50 篇文章

订阅专栏

本文介绍了一种处理数据集中缺失值的有效方法，通过筛选并丢弃包含空字符串的记录，以及利用均值填充连续型变量的空白值，确保数据集的质量和完整性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
前面，小编和大家一起使用数据审核报告找出缺失值，接下来需要对缺失值进行处理。

根据上一节的案例，其中有两类缺失值，一类是名义变量“Car_Owner”的空字符串，一类是连续型变量“Age”的空白值。

案例：数据文件Customers（缺失）.xlsx。

数据流：
在这里插入图片描述
数据展示：

2070条记录。

1. 空字符串的处理

一般缺失值筛选出来进行丢弃或填充。本例中，选择将其丢弃。

1.1 数据审核产生质量分析报告

在这里插入图片描述
生成选择节点中设置：

1.2 重新运行数据审核

自动生成缺失值“选择”节点，如下：
在这里插入图片描述
将选择节点连接到“类型“节点后：

1.2 已生成节点

缺失值“选择”节点，即已生成节点：
在这里插入图片描述

在已生成节点中选择包括，查看存在缺失值的记录：

在已生成节点中选择丢弃，查看丢弃缺失值后的记录：

2. 空白值的处理

2.1 查看缺失值

在“类型”节点中定义缺失值后，重新运行数据审核：
在这里插入图片描述
发现Age字段存在2个缺失值，生成“缺失值选择节点”，即“已生成”节点。

对存在Age缺失值的记录进行输出：

发现ID为3806、3821的记录，Age字段缺失。

2.2 缺失值填充

一般可以用缺失值插补的方法填充。
数据审核节点可以帮助用户自动对空白值进行选择插补。

在这里插入图片描述

点击“缺失值超节点”后，自动形成“缺失值插补”节点。

对缺失值插补后的数据进行输出查看：

发现ID为3806、3821的记录，Age字段被填补为均值42.767。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。