比较两种写入方式 write. *(), write_()
# 先简单建个数据框
# 产生一组随机数,从0~1 共10^6个,共1000rows
readFile = as.data.frame(matrix(runif(10 ^ 6 ,0,1), nrow=1000))
# 如果设定的名字不变,重复写入的时候,新档会覆盖旧档
# 比较两种写法的速度
- write.csv
system.time({ rnum = write.csv(test,"test.csv")})
# 查看一下写入的文档大小
file.info("rnum.csv")$size
- write_csv
# 删除变量,方便再次读取
rm(rnum)
# 先载入readr包
library(readr)
system.time({ rnum = write_csv(test,"test.csv")})
# 结果
# write.csv()
# user system elapsed
# 1.017 0.039 1.065
# write_csv()
# user system elapsed
# 0.248 0.027 0.28
可以看出来readr包中的write_csv()明显要快于write.csv(),这在写入较大文件时则会更为明显。
比较三种读取方式 read.*(), fread, readr
- read.csv
# 查看read.csv的读取速度
system.time({rnum = read.csv(file = "rnum.csv", header=T)})
- fread
# 删除变量
rm(rnum)
# data.table包中的fread读取资料
library("data.table")
system.time({ rnum = fread(input="rnum.csv")})
- read_csv
# 删除变量
rm(rnum)
# readr包中的read_*来读取资料,写入的话用write_*
system.time({ rnum = read_csv("rnum.csv")})
# 结果
# read.csv
# user system elapsed
# 2.427 0.044 2.479
# fread
# user system elapsed
# 0.082 0.007 0.089
# read_csv
# user system elapsed
# 0.760 0.043 0.837
可以看出读取速度最快的就是fread,其次是read_csv。
备注:
“用户”是消耗在应用程序(非操作系统部分)执行的时间。
“系统”是底层操作系统执行(例如磁盘读写等)部分的时间。
“流逝”是经过的总时间(可以认为是前两者的总和)。一般优化时主要关注“用户”的时间。
【数据小盐罐儿】一个无聊的数据分析公众号,不过时常会有一些脑洞的实例分析。
让我们一起学习,打通各种技能!
本文由博客一文多发平台 OpenWrite 发布!