缺失值处理
查看缺失值
library(dplyr)
library(naniar)
covid %>%
miss_var_summary()
处理缺失值
用每一列的众数替换该列的缺失值,若某列有多个众数,取第1个。
df %>%
select(Pclass, Sex, SibSp, Embarked) %>%
map_dfc(~ replace_na(.x, rstatix::get_mode(.x)[1]))
处理异常值
用outliers包来找出异常值
#if you need #install.packages("outliers")
library(outliers)
del<-outlier(sma)#找出异常值并赋值给delsma[sma==del]= NA#把异常值处理成NA
以上
na.omit()#可以用来删除NA值
我正在尝试计算每个列中此数据集的样本数、平均值、标准偏差、变异系数、95% 置信上限和下限以及四分位数,并将其放入新的数据框中。
sap