mice
mice 能对含有缺失值的数据包进行多重插补,而这个所谓的多重插补方法,就需要不断拟合,也就是说需要——formula,此报错正是因为formula中出现了问题
报错原因
请看一个例子,我当时觉得很离谱
library(mice)
A <- as.data.frame(matrix(0, 6, 7))
A[1, 2] <- NA
mice(A, m=5)
此时的运行并不会有任何问题,但如果继续运行
colnames(A) <- c(1:7)
mice(A, m=5)
将会得到这样的结果
iter imp variable
1 1 1Error in terms.formula(tmp, simplify = TRUE) :
ExtractVars里的模型公式不对
是的,列名不好,我的猜测是由数字构成的列名在形成公式时识别成了numeric类型而不是character类型。但是假如你是个character类型的列名,也不一定能成功运行,原因竟是——列名太长!!
这是我在做一个大作业出现的错误,因为在做生物统计,所以列名都很长,其中第3列的列名是这样的:[1] “cna_ADAMTS19-AS1”,结果运行mice时报错说找不到cna_ADAMTS19,在形成formula时把这列名给截了,我大受震撼。
快速解决方案
假如现在有一个 1000*100 的数据包 data,然后不幸的,它的列名不被mice()接受,处理如下:
temp <- matrix(0, 1, dim(data)[2])
temp <- data.frame(temp)
# 利用matrix转data.frame给的默认列名: "V1","V2",···
temp <- colnames(temp)
# 保留原来的列名,处理完毕后可以重新带回去
origin_col <- colnames(data)
colnames(data) <- temp
# 此时就可以进行mice了
mice(data, m=5)