R语言读取超大csv格式文件太慢怎么办，换个函数读，秒秒钟读取！！！

最新推荐文章于 2024-07-31 10:45:00 发布

灯bupa冷

最新推荐文章于 2024-07-31 10:45:00 发布

阅读量1w

点赞数 6

分类专栏： R 文章标签： r语言数据分析

本文链接：https://blog.csdn.net/Apple_xiaoli/article/details/104827760

版权

本文介绍了R语言中读取大csv文件的三种方法，包括内置的read.csv()，readr::read_csv() + dplyr::mutate_if()，以及data.table::fread()。通过速度比拼，展示了在不同数据规模下，data.table::fread()在处理大文件时表现出显著优势，尤其在处理42766行&561列的大文件时，成为速度最快的选项。

摘要由CSDN通过智能技术生成

秒秒钟读取`csv`大文件！！！

文章目录

秒秒钟读取`csv`大文件！！！

最近在做毕业设计，遇到一个问题，在使用R读取上市公司数据时，由于文件太大导致读取数据比较慢，如果把文件拆解成多个文件读取又比较繁琐，查了查资料发现有解决办法。

大家比较熟知R读取csv格式文件的函数是R内置的read.csv()，但除此之外还有其他的，比如readr包的read_csv()函数和data.table包的fread()函数。

1. csv三剑客

1.1 read.csv()

怎么用不详细说了就，说说弊病吧，最主要的是大文件读取速度慢，其次表头的留存问题和字符型数据乱码：

基本用法：

read.csv(file, header = TRUE, sep = ",", quote = "\"", dec = ".", fill = TRUE, comment.char = "", ...)

2.2 readr::read_csv() + dplyr::mutate_if()

read_csv()函数需要加载readr包，而用dplyr包的mutate_if()函数可以进行数据类型转换。

基本用法：

read_csv(file, col_names = TRUE, col_types = NULL,
  locale = default_locale(), na = c("", "NA"), quoted_na = TRUE,
  quote = "\"", comment = "", trim_ws = TRUE, skip = 0,
  n_max = Inf, guess_max = min(1000, n_max),
  progress = show_progress(), skip_empty_rows = TRUE)

例如读取mtcars数据集：

setwd("F://csv数据读取大比拼")  #设置工作区间 

#读取数据集
library(readr)
mtcars <- read_csv("mtcars.csv")
mtcars
#> # A tibble: 32 x 12
#>    type                mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#>    <chr>             <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>