数据标准化常见问题与解决方案汇总

一、缺失值如何处理?

1 、缺失值定义?

1) 取值失败,没有对应的数值,属于系统类缺失;

2) 计算过程中,影响计算(如除数为0),为了使计算能够正常的进行,返回缺失值。该处属于自定义的缺失值;

2、 对于缺失值,计算过程中的处理方案?

1)、如果缺失值的比例占样本的比例较少(低于10%),则可以采用均值、众数、差值等方式进行填充。若在分箱过程中,则可以将该类缺失值,用分箱占比做大的一组进行映射;

2)、如果缺失值的比例占样本比例较高(超过50%),则此类缺失值,不建议采用其他的数值进行填充。若在分箱过程中,则可以将该类缺失值,单独为一个分组进行映射;

3)、如果缺失值,在业务逻辑上存在一定的有效性,则按照相应的业务情况进行处理;

 

二、分箱常见的方法有哪些?

1、等样本法

此种方法主要考虑的是让样本分布均匀,主要针对于样本较少的常见可以采用此方法。进行初步分组,然后结合实际的需求进行下一步的合并与拆分,按照卡方法、决策树、专家意见等方法进行合并

2、等间距法

 

3、离散变量

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值