> library(pacman)
> p_load(dplyr, readr, caret, DataExplorer)
1、读入数据
> glass
>
> profile_missing(glass)
## # A tibble: 11 x 3
## feature num_missing pct_missing
##
## 1 X1 0 0
## 2 X2 0 0
## 3 X3 0 0
## 4 X4 0 0
## 5 X5 0 0
## 6 X6 0 0
## 7 X7 0 0
## 8 X8 0 0
## 9 X9 0 0
## 10 X10 0 0
## 11 X11 0 0
2、 数据预处理
> names(glass)
+ "ca", "ba", "fe", "type")
> glass
>
> str(glass)
## tibble [214 × 10] (S3: tbl_df/tbl/data.frame)
## $ ri : num [1:214] 1.52 1.52 1.52 1.52 1.52 ...
## $ na : num [1:214] 13.6 13.9 13.5 13.2 13.3 ...
## $ mg : num [1:214] 4.49 3.6 3.55 3.69 3.62 3.61 3.6 3.61 3.58 3.6 ...
## $ ai : num [1:214] 1.1 1.36 1.54 1.29 1.24 1.62 1.14 1.05 1.37 1.36 ...
## $ si : num [1:214] 71.8 72.7 73 72.6 73.1 ...
## $ k : num [1:214] 0.06 0.48 0.39 0.57 0.55 0.64 0.58 0.57 0.56 0.57 ...
## $ ca : num [1:214] 8.75 7.83 7.78 8.22 8.07 8.07 8.17 8.24 8.3 8.4 ...
## $ ba : num [1:214] 0 0 0 0 0 0 0 0 0 0 ...
## $ fe : num [1:214] 0 0 0 0 0 0.26 0 0 0 0.11 ...
## $ type: num [1:214] 1 1 1 1 1 1 1 1 1 1 ...
> # 检查数据类别分布
> table(glass$type)
##
## 1 2 3 5 6 7
## 70 76 17 13 9 29
> # 将结果变量转换为因子型
> glass$type
>
> set.seed(123)
> ind
> dtrain
> dtest
>
> dim(dtrain)
## [1] 174 10
> dim(dtest)
## [1] 40 10