r语言 read.csv 和 data.table::fread的一点trick

总所周知,data.table::fread比base::read.csv要快很多,但是,还是有一点要注意的地方:

为了测试 ranger,偶然发现了一个要注意的地方



library(ranger)
#library(bit64)
library(data.table)

traindata1 <- read.csv('input/train.csv', header = T)
traindata2 <- fread('input/train.csv', header = T, data.table = F, verbose = T)
traindata3 <- fread('input/train.csv', header = T, data.table = F, verbose = T, integer64 = 'numeric')

这里的train.csv是kaggle竞赛的数据,https://www.kaggle.com/c/santander-customer-satisfaction
 
traindata1$ID <- NULL
traindata2$ID <- NULL
traindata3$ID <- NULL

rg <- ranger(TARGET ~ ., data = traindata2, write.forest = TRUE)

Error in na.fail.default(list(TARGET = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L,  : 
  missing values in object


for(i in 1:371) if(sum(prod(complete.cases(traindata1[i])))!=1) print(i)
for(i in 1:371) if(sum(prod(complete.cases(traindata2[i])))!=1) print(i)
for(i in 1:371) if(sum(prod(complete.cases(traindata3[i])))!=1) print(i)


##dplyr::all_equal(traindata1[203], traindata3[203])
  

最后经过上述检查,重新阅读了help文档,发现

traindata3 <- fread('input/train.csv', header = T, data.table = F, verbose = T, integer64 = 'numeric')
才对。

原因在integer64参数,

"integer64" (default) reads columns detected as containing integers larger than 2^31 as type bit64::integer64. Alternatively, "double"|"numeric" reads as base::read.csvdoes; i.e., possibly with loss of precision and if so silently. Or, "character".


说的很清楚,以上,是为记。





  
  

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值