连续变量数值的最优分段 文章目录 连续变量数值的最优分段 前言 1. 最优分箱(出现了问题) 前言 最优分箱: 可视分箱,操作简单,适合如04节所说的简单分箱方法,比如:等距、等量、标准差。 可视分箱没有考虑建模时怎样最优化,因此在SPSS中推出了最优分箱。 对前述(04节)的可视化分段的进一步自动化; 用于 建模分析前,对连续变量的最优分段方式进行探索(变量如何切,能使得建模效果达到最好); 根据某些作为“关键指示变量”的分类变量(因变量),将原有的一个或多个连续变量按照==该分类变量 类间差异最大化(对因变量进行预测,使预测效果最佳)==的优化原则离散化为分类变量。 模型熵:熵越小越准确 决定系数越大越好。 1. 最优分箱(出现了问题)