SPSS(基础篇05)--连续变量数值的最优分段

本文介绍了SPSS中的最优分箱方法,用于连续变量的建模分析前的最优分段,旨在通过分类变量最大化因变量预测效果。讨论了模型熵和决定系数的概念,并指出在实际操作中遇到的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

连续变量数值的最优分段


前言

最优分箱:

  • 可视分箱,操作简单,适合如04节所说的简单分箱方法,比如:等距、等量、标准差。
    可视分箱没有考虑建模时怎样最优化,因此在SPSS中推出了最优分箱
  • 对前述(04节)的可视化分段的进一步自动化;
  • 用于 建模分析前,对连续变量的最优分段方式进行探索(变量如何切,能使得建模效果达到最好);
  • 根据某些作为“关键指示变量”的分类变量(因变量),将原有的一个或多个连续变量按照==该分类变量 类间差异最大化(对因变量进行预测,使预测效果最佳)==的优化原则离散化为分类变量。

  • 模型熵:熵越小越准确
  • 决定系数越大越好。

1. 最优分箱(出现了问题)

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值