r语言问题解决：Error in fn(par, ...) : NA/NaN/Inf in foreign function call (arg 1)

提拉米苏2号

已于 2022-11-04 03:11:23 修改

阅读量7.3k

点赞数 8

分类专栏： r 文章标签： r语言开发语言

于 2022-11-04 03:06:17 首次发布

本文链接：https://blog.csdn.net/WinnieGo/article/details/127681524

版权

r 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

两次遇到factor相关error，问题描述如下：

问题一：

在survival analysis中要做一个 aftgee 和aftsrr的模型

由于数据本身原因，运行报错

错误如下：

Error in fn(par, ...) : NA/NaN/Inf in foreign function call (arg 1)

中文：

Error in fn(par, ...) :外接函数调用时不能有NA/NaN/Inf(arg 1)

尝试解决1:

查询以后各个变量并没有 NA/NaN/Inf

该模型范例中variable类型有numeric和factor，我的数据也是，所以排除input variable类型问题

尝试解决2:

随意拆分一下input data，看看是其中几份出问题还是全部？

尝试解决3:

debug（aftsrr）

但是报错同样的错，仍然不知道哪里的问题

尝试解决4:

一个一个variable放进来试一试，嘿，居然还真的挑出来了几个有问题的factor变量

这个时候不要着急靠着删除问题变量一劳永逸，我痛定思痛一回忆.......

似乎之前做xgboost时候，model.matrix( )也遇到的一些有关factor的错误

尝试了一下，果然。

找到问题：

factor数据类型会遇到因子水平的问题

比如我们使用 levels(var1) 查看var1的因子水平以后，发现有些因子水平下没有sample

也就是说我们可能在最原始的data中清洗处理得到input data以后，会删掉我们不需要的sample，但是对应的levels并没有被删除。

例如，我们查看训练集中的mstat变量

其中“ Not applicable ” 就是上面描述的这种情况

解决方法：

可以使用droplevels函数来删除未使用的水平因子，它接受因子或是数据框作为参数，对数据框参数来说，它将丢弃输入因子中所有未使用的水平。

for (cc in 1:ncol(train)) {
  if(class(train[,cc])[1]=="factor")
  {
    if(length(unique(train[,cc]))==length(levels(train[,cc]))) next
    print(cc)
    train[,cc]<-droplevels(train[,cc])  
    test[,cc]<-droplevels(test[,cc])
  }
  else next
  
  
}

问题二：

做model.matrix()时候，用train做好了模型，再放进来test做预测就会报错。

原因是test里面该因子水平有sample，而train里面没有（空有因子水平没有具体样本）

当时没想到 droplevels

用了比较笨的方法，xmat2是训练集xmat的dummy matrix； xmat3是测试集test.prematrix的dummy matrix

把数据中的训练集和测试集分别检查 factor类型的变量

如果该因子水平下样本数为0

就去掉dummy matrix中对应的变量

最后保证一下xmat2和xmat3的colnames一致

  # data transformation
    
    xmat2<-model.matrix(~.-1,xmat)
    
    for (cc in 1:ncol(xmat)) {
      if(class(xmat[,cc])[1]=="factor")
      {
        
        if(length(which(table(xmat[,cc])==0))==0) next
        print(paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
        
        index<- which(colnames(xmat2) %in% paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
        if(length(index)==0) next
        xmat2<-xmat2[,-index]##delete the 0 sample levels
        
      }
      else next
      
      
    }
    
    
    
    xmat3<-model.matrix(~.-1,test.prematrix)
    for (cc in 1:ncol(test.prematrix)) {
      if( class(test.prematrix[,cc])[1]=="factor")
      {
        if(length(which(table(test.prematrix[,cc])==0))==0) next##select factor var with 0 level 
        print(paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
        
        index<- which(colnames(xmat3) %in% paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
        if(length(index)==0) next
        xmat3<-xmat3[,-index]
        
      }
      else next
      
      
    }
    
    
    
    if(length(colnames(xmat2))>=length(colnames(xmat3))){
      which(!colnames(xmat2)%in%colnames(xmat3))
      if(length( which(!colnames(xmat2)%in%colnames(xmat3)))!=0) 
        
        xmat2<-xmat2[,-which(colnames(xmat2)==colnames(xmat2)[ which(!colnames(xmat2)%in%colnames(xmat3))])]
    }else{
      xmat3<-xmat3[,-which(colnames(xmat3)==colnames(xmat3)[ which(!colnames(xmat3)%in%colnames(xmat2))])]
      
    }
    if(length(colnames(xmat2))==length(colnames(xmat3))){
      print("col.train=col test--TRUE")
      dtrain <- xgb.DMatrix(xmat2) #train.X
      dtest <- xgb.DMatrix(xmat3) #test.X
    }else print("colunm names error")
    
    col.nam<-unique(c(colnames(xmat2),colnames(xmat3)))