银行业客户流失预警模型(二)| 数据预处理和特征衍生

1.极端值处理

1.1 极端值定义

极端值也称离群值,可能会影响模型精度,进而影响预测结果。

极端值对于不同的模型,影响不同,虽然处理极端值并不是数据预处理的必经流程,但是我们需要知道极端值的存在对最终结果的影。

一般回归模型对极端值非常敏感,需要处理。而决策树,KNN对极端值影响并不大,可以选择不处理。

1.2 极端值的检测

检测极端值有很多方法,最直观的就是可视化检测。

###如何量化判断极端值呢?

###我们一般将三个标准差以外的值称为极端值。

1.3极端值的处理

(1)删除极端值:
如果数据量足够大,而极端值只是少数,我们可以选择将极端值删去。

例如个别持卡人的年龄超过85岁,这个数据本身就是很少数的情况,所以可以删除

(2)人为调整:

但是如果数据样本很少,不能轻易删除数据,那可以选择人为降低极端值到某个正常值范围内,例如用95%分为点的值代替。

(3)单独建立模型:
例如信用可额度特别高。

2.缺失值处理

2.1缺失值的种类

(1)完全随机缺失:缺失值和其他变量没有关系,比如婚

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值