R 填充数据集中的缺失值

最新推荐文章于 2023-02-19 09:05:06 发布

梦想画家

最新推荐文章于 2023-02-19 09:05:06 发布

阅读量7k

点赞数 1

分类专栏： R语言文章标签：数据挖掘 r语言人工智能动态变量引用缺失值

本文链接：https://blog.csdn.net/neweastsun/article/details/122147826

版权

R语言专栏收录该内容

69 篇文章 36 订阅

订阅专栏

本文介绍用简单方法快速替换缺失值。实际应用中要根据实际情况选择合适的方式填充缺失值。

填充数据框缺失值

通常我们会用特定列的均值或中位数填充数据框列的缺失值。对应的代码大概如下：

df$col[is.na(df$col)] <- mean(df$col, na.rm=TRUE)

如果所有列都是数值类型，可以使用下面代码模板：

for(i in 1:ncol(df)) {
  df[ , i][is.na(df[ , i])] <- mean(df[ , i], na.rm=TRUE)
}

在这里插入图片描述

示例

#create data frame
df <- data.frame(var1=c(1, NA, NA, 4, 5),
                 var2=c(7, 7, 8, NA, 2),
                 var3=c(NA, 3, 6, NA, 8),
                 var4=c(1, 1, 2, 8, 9))

#replace missing values in first column with mean of first column
df$var1[is.na(df$var1)] <- mean(df$var1, na.rm=TRUE)

#view data frame with missing values replaced
df

#       var1 var2 var3 var4
# 1 1.000000    7   NA    1
# 2 3.333333    7    3    1
# 3 3.333333    8    6    2
# 4 4.000000   NA   NA    8
# 5 5.000000    2    8    9

## 一次性使用中位数替换

for(i in 1:ncol(df)) {
  df[ , i][is.na(df[ , i])] <- median(df[ , i], na.rm=TRUE)
}

df

#       var1 var2 var3 var4
# 1 1.000000    7    6    1
# 2 3.333333    7    3    1
# 3 3.333333    8    6    2
# 4 4.000000    7    6    8
# 5 5.000000    2    8    9

上面示例一次性成功填充了所有缺失值，但有时会遇到列不一定都是数值类型，如有字符型，遇到字符类型则不能求均值，只能用众数填充。这是就会遇到动态引用变量问题，下面我们来介绍如果动态引用变量。

dplyr mutate函数动态引用变量

要在mutate函数中动态引用变量，需要使用 !! 操作符，文档中描述如下：

!! 操作符去掉参数的引号，并在上下文环境中立刻评估其值。
我们可以使用rlang::sym(bolname)函数：指定字符串参数返回变量符号, 与直接使用.data[[bolname]] 效果一样。

library(pacman)
p_load(dplyr, tibble)

df1 <- tibble(a=c(1,2,3,4), b=c("a","b","c","d"))
for (cn in colnames(df1)) {
  if(cn %in% names(df1[, sapply(df1, is.numeric)])){
    df1 %>% mutate(!!cn := !!rlang::sym(cn) * 2) -> df1
    # df1 %>% mutate(!!cn := .data[[cn]] * 2) -> df1
  }
}
df1

#       a b    
#   <dbl> <chr>
# 1     2 a    
# 2     4 b    
# 3     6 c    
# 4     8 d

批量替换tibble变量缺失值

上面解决了在mutate函数中动态引用变量，下面这个示例，对于数值类型缺失值用均值填充，字符类型使用众数函数填充。

library(pacman)
p_load(tidyverse)


rv <- c(11, 18, 19, 21, 29, 46, 21)
rc <- c("a", "b", "c", "a", "d", "b", "e", "a", "c" )

## 定义函数返回众数
imode <- function(v) {
 uniqv <- unique(v)
 uniqv[which.max(tabulate(match(v, uniqv)))]
}

# imode(rv)
# imode(rc)
 
df<-tibble(id=seq(1,10), 
           ca=c(10,9,8,7,NA,NA,20,15,12,NA), 
           cb=factor(c("A","B","A","A","","B","A","B","","A")),
           cc=factor(c("","BB","CC","BB","BB","CC","AA","BB","","AA")),
           cd=c(NA,20,18,22,18,17,19,NA,17,23)
           )
# df

## 动态获取变量值

for (col in colnames(df)) {
  if (col %in% names(df[,sapply(df, is.numeric)])) {
    ## 动态替换数值变量中NA值为均值
    df <- df  %>% 
          mutate(!!col := replace(.data[[col]], is.na(.data[[col]]), mean(.data[[col]], na.rm=TRUE)) )
    # mutate(!!col := replace(!!rlang::sym(col), is.na(!!rlang::sym(col)), mean(.data[[col]], na.rm=TRUE)) )
  }
  else {
    ## 动态替换字符变量中NA值为均值
    print(replace(.data[[col]], .data[[cols]]=="", imode(.data[[col]])))
    df <- df %>% 
          mutate(!!col := replace(.data[[col]], .data[[col]]=="", imode(.data[[col]])))
    # mutate(!!col := replace(!!(rlang::sym(col)), !!rlang::sym(col)=="", imode(!!rlang::sym(col))) )
  }
}

df
#       id    ca cb    cc       cd
#    <dbl> <dbl> <fct> <fct> <dbl>
#  1     1  10   A     BB     19.2
#  2     2   9   B     BB     20  
#  3     3   8   A     CC     18  
#  4     4   7   A     BB     22  
#  5     5  11.6 A     BB     18  
#  6     6  11.6 B     CC     17  
#  7     7  20   A     AA     19  
#  8     8  15   B     BB     19.2
#  9     9  12   A     BB     17  
# 10    10  11.6 A     AA     23

上面代码有几点解释下：

colnames函数返回数据集的变量名称集合;names 函数功能类似，最大区别是前者只能用于而为数据结构，如矩阵、数据框，而names只能用于数据框；另外names可用于vector，colnames用于vector返回NULL。
sapply(df, is.numeric) 返回 df 中所有数值类型的变量。
dplyr包可使用:= 符号给动态变量赋值。

梦想画家

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
R 填充数据集中的缺失值

R 填充数据集中的缺失值本文介绍用简单方法快速替换缺失值。实际应用中要根据实际情况选择合适的方式填充缺失值。填充数据框缺失值通常我们会用特定列的均值或中位数填充数据框列的缺失值。对应的代码大概如下：df$col[is.na(df$col)] <- mean(df$col, na.rm=TRUE)如果所有列都是数值类型，可以使用下面代码模板：for(i in 1:ncol(df)) { df[ , i][is.na(df[ , i])] <- mean(df[ , i], n
复制链接

扫一扫