两次遇到factor相关error,问题描述如下:
问题一:
在survival analysis中要做一个 aftgee 和aftsrr的模型
由于数据本身原因,运行报错
错误如下:
Error in fn(par, ...) : NA/NaN/Inf in foreign function call (arg 1)
中文:
Error in fn(par, ...) :外接函数调用时不能有NA/NaN/Inf(arg 1)
尝试解决1:
查询以后各个变量并没有 NA/NaN/Inf
该模型范例中variable类型有numeric和factor,我的数据也是,所以排除input variable类型问题
尝试解决2:
随意拆分一下input data,看看是其中几份出问题还是全部?
尝试解决3:
debug(aftsrr)
但是报错同样的错,仍然不知道哪里的问题
尝试解决4:
一个一个variable放进来试一试,嘿,居然还真的挑出来了几个有问题的factor变量
这个时候不要着急靠着删除问题变量一劳永逸,我痛定思痛一回忆.......
似乎之前做xgboost时候,model.matrix( )也遇到的一些有关factor的错误
尝试了一下,果然。
找到问题:
factor数据类型会遇到 因子水平 的问题
比如我们使用 levels(var1) 查看var1的因子水平以后,发现有些因子水平下没有sample
也就是说我们可能在最原始的data中清洗处理得到input data以后,会删掉我们不需要的sample,但是对应的levels并没有被删除。
例如,我们查看训练集中的mstat变量
其中“ Not applicable ” 就是上面描述的这种情况
解决方法:
可以使用droplevels
函数来删除未使用的水平因子,它接受因子或是数据框作为参数,对数据框参数来说,它将丢弃输入因子中所有未使用的水平。
for (cc in 1:ncol(train)) {
if(class(train[,cc])[1]=="factor")
{
if(length(unique(train[,cc]))==length(levels(train[,cc]))) next
print(cc)
train[,cc]<-droplevels(train[,cc])
test[,cc]<-droplevels(test[,cc])
}
else next
}
问题二:
做model.matrix()时候,用train做好了模型,再放进来test做预测就会报错。
原因是test里面该因子水平有sample,而train里面没有(空有因子水平没有具体样本)
当时没想到 droplevels
用了比较笨的方法,xmat2是训练集xmat的dummy matrix; xmat3是测试集test.prematrix的dummy matrix
把数据中的训练集和测试集分别检查 factor类型的变量
如果该因子水平下样本数为0
就去掉dummy matrix中对应的变量
最后保证一下xmat2和xmat3的colnames一致
# data transformation
xmat2<-model.matrix(~.-1,xmat)
for (cc in 1:ncol(xmat)) {
if(class(xmat[,cc])[1]=="factor")
{
if(length(which(table(xmat[,cc])==0))==0) next
print(paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
index<- which(colnames(xmat2) %in% paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
if(length(index)==0) next
xmat2<-xmat2[,-index]##delete the 0 sample levels
}
else next
}
xmat3<-model.matrix(~.-1,test.prematrix)
for (cc in 1:ncol(test.prematrix)) {
if( class(test.prematrix[,cc])[1]=="factor")
{
if(length(which(table(test.prematrix[,cc])==0))==0) next##select factor var with 0 level
print(paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
index<- which(colnames(xmat3) %in% paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
if(length(index)==0) next
xmat3<-xmat3[,-index]
}
else next
}
if(length(colnames(xmat2))>=length(colnames(xmat3))){
which(!colnames(xmat2)%in%colnames(xmat3))
if(length( which(!colnames(xmat2)%in%colnames(xmat3)))!=0)
xmat2<-xmat2[,-which(colnames(xmat2)==colnames(xmat2)[ which(!colnames(xmat2)%in%colnames(xmat3))])]
}else{
xmat3<-xmat3[,-which(colnames(xmat3)==colnames(xmat3)[ which(!colnames(xmat3)%in%colnames(xmat2))])]
}
if(length(colnames(xmat2))==length(colnames(xmat3))){
print("col.train=col test--TRUE")
dtrain <- xgb.DMatrix(xmat2) #train.X
dtest <- xgb.DMatrix(xmat3) #test.X
}else print("colunm names error")
col.nam<-unique(c(colnames(xmat2),colnames(xmat3)))
写在后面:
统计专业科研人的成长之路
记录自己科研过程中遇到的各种r语言bug
欢迎交流~
email:18920927551@163.com