R语言-缺失值处理1

R语言中缺失值处理

missing-value-treatment.bmp

前言

  在处理数据的过程中,样本往往会包含缺失值。我们有必要对缺失值进行处理,这样不但可以降低预测分析的数据偏差,而且还可以构建有效的模型。本文将简要介绍几种常见的数据缺失值处理方法。

目录

 1. 数据准备和模式设定

 2. 删除记录

 3. 删除变量

 4. 用均值/中位数/众数进行插补

 5. 预测法

1. 数据准备和模式设定

  本文所涉及到的几种数据缺失值处理方法都是使用mlbench包中的BostonHousing数据集作为演示数据。由于BostonHousing数据集没有缺失值,为了演示需要,在数据集中随机插入缺失值。通过这种方法,我们不仅可以评估由数据缺失带来的精度损失,也可以比较不同处理方式的效果好坏。

    # 初始化数据
    # install.packages('mlbench')
    library(mlbench)
    data ("BostonHousing", package="mlbench")
    original <- BostonHousing
    
    # 填充缺失值
    set.seed(100)
    BostonHousing[sample(1:nrow(BostonHousing), 40), "rad"] <- NA
    BostonHousing[sample(1:nrow(BostonHousing), 40), "ptratio"] <- NA

  在插入缺失值之后,我们可以使用mice包中md.pattern函数查看缺失值的“数据模式”

    # 缺失值的模式
    library(mice)
    md.pattern(BostonHousing)
    
        crim zn indus chas nox rm age dis tax ptratio b lstat medv rad   
    466    1  1     1    1   1  1   1   1   1       1 1     1    1   1  0
     40    1  1     1    1   1  1   1   1   1       1 1     1    1  
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值