R读取并处理较大数据

最新推荐文章于 2023-08-28 10:42:17 发布

weixin_34008933

最新推荐文章于 2023-08-28 10:42:17 发布

阅读量3.2k

点赞数

文章标签：大数据 r语言数据库

原文链接：https://segmentfault.com/a/1190000008927519

版权

本文对比了在R中使用data.table、RMySQL、dplyr和sqldf处理大数据的效率。发现RMySQL在导入数据库后处理数据效率最高，data.table在读取大文件时表现优秀。不推荐直接读取大文件，而是推荐先导入数据库，再通过RMySQL读取。

摘要由CSDN通过智能技术生成

1. 概述

之前在读取和处理较大的csv数据时，在尝试了一次直接读取处理后发现非常耗时，就改用导入数据库，再通过RMySQL或者RODBC来读取处理数据。今天来比较一下。

加载相关packages

library(data.table)
library(dplyr)
library(sqldf)
library(lubridate)
library(RMySQL)

2. 读取数据

2.1 使用data.table

首先通过data.table的fread()读取数据，fread()比read.csv()的效率高很多，这里不进行详细比较。

time_fread <- system.time(
test <- fread("test.csv")
)
## 数据的大小
paste("数据的大小为：",format(object.size(test),units="auto"))

数据的大小为： 573.1 Mb

2.2 使用RMySQL

导入数据库后效率最高，虽然导入数据库消耗的时间较长，但便于后续统计.

con <- dbConnect(MySQL(),host="localhost",dbname="test_db",user="root",password="root")
# dbListTables(con)
# dbRemoveTable(con,"test")
# 将数据写入数据库
time

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34008933

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

C#在MySQL大量数据下的高效读取、写入详解

09-01

本文将探讨如何高效地读取和写入大量数据，主要分为三个步骤：解决读取问题、数据处理和数据插入。 ### 第一步：解决读取问题 1. **避免使用重型ORM框架**：如Entity Framework和NHibernate，这些框架在处理大数据...

R语言读取超大csv格式文件太慢怎么办，换个函数读，秒秒钟读取！！！

Apple_xiaoli的博客

03-12

1万+

最近在做毕业设计，遇到一个问题，在使用R读取上市公司数据时，由于文件太大导致读取数据比较慢，如果把文件拆解成多个文件读取又比较繁琐，查了查资料发现有解决办法。大家比较熟知R读取csv格式文件的函数是R内置的`read.csv()`，但除此之外还有其他的，比如`readr`包的`read_csv()`函数和`data.table`包的`fread()`函数。

参与评论您还未登录，请先登录后发表或查看评论

数据太大的时候，R语言如何读取？

weixin_46500027的博客

04-16

1万+

一般我喜欢把文件储存成csv格式，然后用read.csv读取文件。也有的人习惯储存数据为txt格式，然后用read.table读取文件。但是当数据太大的时候，read.csv和read.table似乎就不适用了。首先读取慢，而且读到最后会读一个寂寞。比如下面这个文件：有三个多G，用read.csv读取的时候，会发生什么状况呢？ setwd("D:\\") dir() data <- read.table("GSE149614_HCC.scRNAseq.S7191...

R语言分析分析大数据的一些问题

思过留痕

07-15

4676

大数据分析包首先讲一下，处理大数据的data.table包特别好用，读入读出函数、连接函数、提取查询函数等。或许你的电脑是4G内存，i5，我的电脑就是，32位，应该属于最低配置了，且C盘内存所剩无几，处理600万左右样本一般没问题。然而稍微大一些，导入数据时会提醒内存不足，再大些的数据量就会提醒需要升级64位信息。若是做数据分析的，最好配置高一些的电脑，用了8G，i7，处理2000万左右

给你的R语言再次提速

医学和生信笔记的博客

08-08

831

包的作者是一位人类遗传学的博士生，需要处理的数据都是量级非常大的，但是作者非常喜欢用R语言，众所周知，R语言很慢！所以作者才开发了这个包解决自己的实际需求！R包bigstatsr提供了大规模矩阵数据进行快速统计分析的函数。主要是使用了FBM（filebacked big matrices）和内存映射（memory-mapping）技术。不光是生物信息学的数据，其他的类似数据都可以使用这个包进行处理哦！注意：此包的多数算法都不能处理缺失值！...

R语言之处理大型数据集的策略

热门推荐

DONGJIU的专栏

07-27

1万+

| 用R语言作分析时，有时候需要逐行处理非常大文件，各种教材中推荐的read.table 和scan都是一次性读入内存，如果文件有好几个Gb大小，一般电脑肯定吃不消。其实R中可以逐行读取的行数，这里示例一个函数，作为备忘： con line=readLines(con,n=1) while( length(line) != 0 ) { pr

R语言-data.table包用来加速大型数据集的加载和运算

Norah 的技术博客

07-07

1590

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点是快。它内部处理的步骤进行了程序上的优化，使用多线程，还有很多C编写的函数，大大加快数据运行速度。尤其当对一两百万甚至更大数据集进行修改或运算时，由于data.table直接对数据本身做运算，不创建副本，因此相较于基本的data.frame格式，data.table在面对大型数据集时，进行聚合排序以及分组运算的性能非常高！............

R语言data.table包高效数据处理（大量数据分析/处理）

关注我，你就是我的电子朋友咯！

04-07

8050

在数据处理量较大的时候，最为头痛的就是数据的读写、运算效率。 data.table处理大数据集（数据文件达到以1G为单位）时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数（filter、group_by、mutate、summarise），数据量在上100万左右，稍微复杂的计算差距就特别明显。 ...

R语言_读取大数据

W2388727409的博客

10-11

836

首选方法：使用data.table包中的fread函数： fread(input, file, sep="auto", sep2="auto", dec=".", quote="\"", nrows=Inf, header="auto", na.strings=getOption("datatable.na.strings","NA"), # due ...

R语言读取大数据

weixin_34245082的博客

05-08

2376

普通情况下使用scan读取数据x<-scan("D:\\test.txt")按列读入，指定数据类型x<-scan("test2dat.txt",what=list("",0,0))#读取三列数据，第一列是字符，第二和第三列是数值 #以下写法也可以 x2<-scan("test2dat.txt",list(name="",num1=0,n...

用R处理大数据集

mousever的专栏

04-12

2624

本文翻译自R in Action的附录G，如果对该书感兴趣，请自行购买或去图书馆阅读。 R会把所有的对象读存入虚拟内存中。对我们大多数用户来说，这种设计可以提高与R相互的速度，但是当分析大数据集时，这种设计会降低程序运行速度有时还会产生跟内存相关的错误。内存限制主要取决于R的build版（32位还是64位），而在32位的windows下，取决于操作系统的版本。以cannot allocate

[原]数据科学教程：R语言与DataFrame[2016版]

weixin_34364135的博客

03-16

650

什么是DataFrame 引用 r-tutor上的定义： DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。没错，DataFrame就是类似于Excel表格和MySQL数据库一样是一个结构化的数据体。而这种结构化的数据体是当代数据流编程中的中流砥柱，几乎所有先进算法的载体都是DataFram...

R语言统计分析：数据读取与t检验实践

在练习中，用户被要求将数据录入Excel并保存为`t.test.txt`文件，然后使用R语言的`read.table`函数读取这个文件。接下来，对读取的数据进行操作，通过`attach`函数关联数据，计算体重与身高平方的比值（比率），最后...