SPSS Modeler 建模前准备—数据平衡与特征选择(指南 第十一章)

本文详细介绍了在SPSS Modeler中如何处理数据不平衡问题,包括欠采样和过采样的方法,并结合"bankloan.sav"数据进行实例演示。此外,文章还阐述了特征选择的重要性,给出了"telco.sav"数据的特征选择步骤和结果,最终从42个字段中筛选出28个用于建模。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

1. 数据平衡

在数据挖掘过程中,经常会遇到数据不平衡的问题,由于模型总是力求分类尽可能精确,因此面对不平衡数据时分类器总是倾向于大类别的样本。

平衡节点
在这里插入图片描述
在平衡节点中,提供了两种处理方式:
(1)欠采样:对于总体数据中的多数类别,通过对其进行随机抽样,减少多数类别的样本数量,以此来降低数据集的不平衡程度。
(2)过采样:对于总体数据中的少数类别,通过对其进行样本复制,增加额外的样本量,以此来降低数据集的不平衡程度。

案例:Demo文件下的”bankloan.sav“数据文件。(违约风险分析)

数据展示
在这里插入图片描述

1.1 查看客户流失情况分布

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值