一、缺失值如何处理?
1 、缺失值定义?
1) 取值失败,没有对应的数值,属于系统类缺失;
2) 计算过程中,影响计算(如除数为0),为了使计算能够正常的进行,返回缺失值。该处属于自定义的缺失值;
2、 对于缺失值,计算过程中的处理方案?
1)、如果缺失值的比例占样本的比例较少(低于10%),则可以采用均值、众数、差值等方式进行填充。若在分箱过程中,则可以将该类缺失值,用分箱占比做大的一组进行映射;
2)、如果缺失值的比例占样本比例较高(超过50%),则此类缺失值,不建议采用其他的数值进行填充。若在分箱过程中,则可以将该类缺失值,单独为一个分组进行映射;
3)、如果缺失值,在业务逻辑上存在一定的有效性,则按照相应的业务情况进行处理;
二、分箱常见的方法有哪些?
1、等样本法
此种方法主要考虑的是让样本分布均匀,主要针对于样本较少的常见可以采用此方法。进行初步分组,然后结合实际的需求进行下一步的合并与拆分,按照卡方法、决策树、专家意见等方法进行合并
2、等间距法
3、离散变量