评分卡模型开发-用户数据缺失值处理

最新推荐文章于 2023-02-02 14:58:31 发布

小力丸

最新推荐文章于 2023-02-02 14:58:31 发布

阅读量1.2w

点赞数 10

分类专栏：信用风险评级模型的开发文章标签： R语言评分卡模型开发缺失值处理

本文链接：https://blog.csdn.net/lll1528238733/article/details/76599626

版权

在我们搜集样本时，许多样本中一般都含有缺失值，这种情况在现实问题中非常普遍，这会导致一些不能处理缺失值的分析方法无法应用，因此，在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法，包括如下几种。
（1）直接删除含有缺失值的样本。
（2）根据样本之间的相似性填补缺失值。
（3）根据变量之间的相关关系填补缺失值。
直接删除含有缺失值的样本时最简单的方法，尤其是这些样本所占的比例非常小时，用这种方法就比较合理，但当缺失值样本比例较大时，这种缺失值处理方法误差就比较大了。在采用删除法剔除缺失值样本时，我们通常首先检查样本总体中缺失值的个数，在R中使用complete.cases()函数来统计缺失值的个数。

>GermanCredit[!complete.cases(GermanCredit),]
>nrow(GermanGredit[!complete.cases(GermanCredit),]
>GermanCredit<-na.omit(GermanCredit)    #删除包含缺失值的样本
>View(GermanCredit)                     #查看结果

根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们，通常使用能代表变量中心趋势的值进行填补，因为代表变量中心趋势的值反映了变量分布的最常见值。代表变量中心趋势的指标包括平均值、中位数、众数等，那么我们采用哪些指标来填补缺失值呢？最佳选择是由变量的分布来确定，例如，对于接近正态分布的变量来说，由于所有观测值都较好地聚集在平均值周围，因此平均值就就是填补该类变量缺失值的最佳选择。然而，对于偏态分布或者离群值来说，平均值就不是最佳选择。因为偏态分布的大部分值都聚集在变量分布的一侧，平均值不能作为最常见值的代表。对于偏态分布或者有离群值的分布而言，中位数是更好地代表数据中心趋势的指标。对于名义变量（表3.1中的定性指标），通常采用众数填补缺失值。
我们将上述分析放在一个统一的函数centralImputation()中，对于数值型变量，我们用中位数填补，对于名义变量，我们用众数填补，函数代码如下：

centralImputation<-function(data)
  {
  for(i in seq(ncol(data)))
     if(any(idx<-is.na(data[,i])))
     {

最低0.47元/天解锁文章

小力丸

关注

10
点赞
踩
34

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录