1. 为什么要筛选有效的输入变量
(1)提高模型的稳定性,过多的输入变量带来干扰和过拟合的问题,导致模型的稳定性下降,模型效果变差。优质模型一定要遵循输入变量“少而精”的原则
(2)提高模型预测能力的需要,过多的输入变量会产生共线性的问题。当自变量之间高度相关时,数据小小的变化,会引起模型参数严重震荡,明显降低模型的预测能力
(3)提升运算速度及运算效率
2.变量筛选的措施
(1)业务经验法,根据业务经验与业务判断缩小自变量的考察范围
(2)明显无价值的变量可直接删除:如:阐述变量或者只有一个值的变量、缺失值达到95%、取值太泛的类别型变量(此类也可合并)
(3)通过自变量之间的线性相关进行初步筛选,皮尔逊相关系数为常用算法,可用于离散变量之间,连续型变量之间,二元变量与区间型变量之间的线性关系
r =(x与y的协方差)/ x标准差与y的标注差的乘积
r 小于0.3 低度相关性 ;r在[0.3,0.5]之间中低度线性;r在[0.5,0.8]之间中度线性相关;r在[0.8.10]高度线性相关
如果自变量属于中度以上线性相关(大于0.6)以上的多个变量,只保留一个就可以。