r语言问题解决:Error in fn(par, ...) : NA/NaN/Inf in foreign function call (arg 1)

两次遇到factor相关error,问题描述如下:

 

问题一:

在survival analysis中要做一个 aftgeeaftsrr的模型

由于数据本身原因,运行报错

错误如下:

Error in fn(par, ...) : NA/NaN/Inf in foreign function call (arg 1)

中文:

Error in fn(par, ...) :外接函数调用时不能有NA/NaN/Inf(arg 1)

尝试解决1:

查询以后各个变量并没有 NA/NaN/Inf

该模型范例中variable类型有numeric和factor,我的数据也是,所以排除input variable类型问题

尝试解决2:

随意拆分一下input data,看看是其中几份出问题还是全部?

尝试解决3:

debug(aftsrr)

但是报错同样的错,仍然不知道哪里的问题

尝试解决4:

一个一个variable放进来试一试,嘿,居然还真的挑出来了几个有问题的factor变量

这个时候不要着急靠着删除问题变量一劳永逸,我痛定思痛一回忆.......

似乎之前做xgboost时候,model.matrix( )也遇到的一些有关factor的错误

尝试了一下,果然。

找到问题:

factor数据类型会遇到 因子水平 的问题

比如我们使用 levels(var1) 查看var1的因子水平以后,发现有些因子水平下没有sample

也就是说我们可能在最原始的data中清洗处理得到input data以后,会删掉我们不需要的sample,但是对应的levels并没有被删除。

例如,我们查看训练集中的mstat变量

其中“ Not applicable ” 就是上面描述的这种情况

 解决方法:

可以使用droplevels函数来删除未使用的水平因子,它接受因子或是数据框作为参数,对数据框参数来说,它将丢弃输入因子中所有未使用的水平。

for (cc in 1:ncol(train)) {
  if(class(train[,cc])[1]=="factor")
  {
    if(length(unique(train[,cc]))==length(levels(train[,cc]))) next
    print(cc)
    train[,cc]<-droplevels(train[,cc])  
    test[,cc]<-droplevels(test[,cc])
  }
  else next
  
  
}

问题二:

做model.matrix()时候,用train做好了模型,再放进来test做预测就会报错。

原因是test里面该因子水平有sample,而train里面没有(空有因子水平没有具体样本)

当时没想到 droplevels

用了比较笨的方法,xmat2是训练集xmat的dummy matrix; xmat3是测试集test.prematrix的dummy matrix

把数据中的训练集和测试集分别检查 factor类型的变量

如果该因子水平下样本数为0

就去掉dummy matrix中对应的变量

最后保证一下xmat2和xmat3的colnames一致

  # data transformation
    
    xmat2<-model.matrix(~.-1,xmat)
    
    for (cc in 1:ncol(xmat)) {
      if(class(xmat[,cc])[1]=="factor")
      {
        
        if(length(which(table(xmat[,cc])==0))==0) next
        print(paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
        
        index<- which(colnames(xmat2) %in% paste0(names(xmat)[cc],levels(xmat[,cc])[which(table(xmat[,cc])==0)]))
        if(length(index)==0) next
        xmat2<-xmat2[,-index]##delete the 0 sample levels
        
      }
      else next
      
      
    }
    
    
    
    xmat3<-model.matrix(~.-1,test.prematrix)
    for (cc in 1:ncol(test.prematrix)) {
      if( class(test.prematrix[,cc])[1]=="factor")
      {
        if(length(which(table(test.prematrix[,cc])==0))==0) next##select factor var with 0 level 
        print(paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
        
        index<- which(colnames(xmat3) %in% paste0(names(test.prematrix)[cc],levels(test.prematrix[,cc])[which(table(test.prematrix[,cc])==0)]))
        if(length(index)==0) next
        xmat3<-xmat3[,-index]
        
      }
      else next
      
      
    }
    
    
    
    if(length(colnames(xmat2))>=length(colnames(xmat3))){
      which(!colnames(xmat2)%in%colnames(xmat3))
      if(length( which(!colnames(xmat2)%in%colnames(xmat3)))!=0) 
        
        xmat2<-xmat2[,-which(colnames(xmat2)==colnames(xmat2)[ which(!colnames(xmat2)%in%colnames(xmat3))])]
    }else{
      xmat3<-xmat3[,-which(colnames(xmat3)==colnames(xmat3)[ which(!colnames(xmat3)%in%colnames(xmat2))])]
      
    }
    if(length(colnames(xmat2))==length(colnames(xmat3))){
      print("col.train=col test--TRUE")
      dtrain <- xgb.DMatrix(xmat2) #train.X
      dtest <- xgb.DMatrix(xmat3) #test.X
    }else print("colunm names error")
    
    col.nam<-unique(c(colnames(xmat2),colnames(xmat3)))

写在后面:

统计专业科研人的成长之路

记录自己科研过程中遇到的各种r语言bug

欢迎交流~

email:18920927551@163.com

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值