策略分析中缺失值的处理方法

原创于 2022-10-24 08:00:00 发布

· 1k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法 #人工智能

互联网金融同时被 3 个专栏收录

70 篇文章

订阅专栏

65 篇文章

订阅专栏

21 篇文章

订阅专栏

本文探讨了策略分析中遇到缺失值的常见原因，并介绍了替换法、删除法和保留法等处理方法。重点在于理解缺失值的意义，以及如何根据变量性质和样本量选择合适的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在日常的策略分析中，经常会碰到分析的变量出现缺失值的情况，如果对这些缺失值视而不见，则会对策略分析的结果造成一定的影响。那么我们如何处理缺失值呢？关注“金科应用研院”，回复“CSDN”领取“风控资料合集”

首先，我们需要了解缺失值产生的原因。一般来讲，产生缺失值的原因有很多，比如说：

某个变量不适用于所有样本
由于信息披漏、隐私保护政策导致缺失
数据表连接时的操作带来大量缺失值
由于业务发展变化存留下的无意义的字段数据，等同于缺失值

在使用某些分析技术进行策略分析时，有的分析可以处理缺失值，比如说决策树，所以缺失值影响比较小。但是有些分析需要我们人工处理缺失值。下面介绍一些常用的缺失值处理方法。

1、替代法

替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值；离散型的变量可以用众数来填充缺失值；

也可以根据样本其他的已知信息利用回归技术逐个计算出缺失值处的值，但是这种方法在现实应用中的效果还有待商榷。

2、删除法

删除法是最简单的做法，可以选择直接删除包含缺失值的样本，当然这种做法的前提是需要样本量足够大，而且缺失值是随机的且少量的；

另外也可以选择删除缺失值过多的变量，不纳入到分析的样本中，这种做法本质上是认为所删除的变量从业务层面上来讲没有解释意义，或与目标变量的相关性较弱。

3、保留法

这种方法其实就是认为缺失值本身就是有业务意义的，当然这种方法的使用前提是缺失值和目标变量是有相关关系的。

在现实工作中，可以先使用一些数理统计的方法，比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性，就可以采用保留法，作为某个特殊类别的样本组处理。

如果该变量与目标变量的相关性较弱或者无关，可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法；样本量小的可采用替代法来处理。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。