分类变量的筛选

1. 为什么要筛选有效的输入变量

  (1)提高模型的稳定性,过多的输入变量带来干扰和过拟合的问题,导致模型的稳定性下降,模型效果变差。优质模型一定要遵循输入变量“少而精”的原则

  (2)提高模型预测能力的需要,过多的输入变量会产生共线性的问题。当自变量之间高度相关时,数据小小的变化,会引起模型参数严重震荡,明显降低模型的预测能力

     (3)提升运算速度及运算效率

2.变量筛选的措施

  (1)业务经验法,根据业务经验与业务判断缩小自变量的考察范围

     (2)明显无价值的变量可直接删除:如:阐述变量或者只有一个值的变量、缺失值达到95%、取值太泛的类别型变量(此类也可合并)

     (3)通过自变量之间的线性相关进行初步筛选,皮尔逊相关系数为常用算法,可用于离散变量之间,连续型变量之间,二元变量与区间型变量之间的线性关系

    r  =(x与y的协方差)/ x标准差与y的标注差的乘积 

    r 小于0.3 低度相关性 ;r在[0.3,0.5]之间中低度线性;r在[0.5,0.8]之间中度线性相关;r在[0.8.10]高度线性相关 

           如果自变量属于中度以上线性相关(大于0.6)以上的多个变量,只保留一个就可以。 

转载于:https://www.cnblogs.com/dw001/p/6226059.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值