library(tidyverse)
library(caret)
library(rpart)
library(VIM)
library(car)
library(naniar)
library(mice)
library(ggthemes)
读取数据
dat <- read.csv('titanic.csv')
nrow(dat)
缺失数据分析
以下程序分析数据集中缺失的数据。
sapply(dat, function(x) round(sum(is.na(x)),2))
aggr(dat, prop=FALSE, numbers=TRUE)
dat %>%
miss_var_summary() %>%
head()
统计数据集的缺失值
- 客舱变量缺失值1014个,占77.46%
- home_dest变量有564个缺失值,占43.09%
- 年龄变量缺失值263个,占20.09%
- 出发变量有2个缺失值,占0.15%
- 票价变量有1个缺失值,占0.08%