R语言处理大规模数据集的编程要点

最新推荐文章于 2022-07-07 00:48:49 发布

ddem35827

最新推荐文章于 2022-07-07 00:48:49 发布

阅读量833

点赞数

文章标签： r语言大数据

原文链接：http://www.cnblogs.com/MarsMercury/p/4935858.html

版权

1.提高程序效率，保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵，必要时才使用数据框

(3)使用read.table时，尽量显式设定colClasses和nrows，设定comment.char=""，把不需要的列设置为NULL

(4)将外部数据导入矩阵时，使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包：将数据保存在硬盘，操作起来跟在内存中一样

(2)bigmemory包：支持大规模矩阵的创建

(3)filehash：keyvalue数据库，value在硬盘中

(4)ncdf,ncdf4：读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归，lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread：data.table包，大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf：ff包

(3)read.big.matrix：bigmemory，无法在windows下

(4)read.csv.sql：sqldf包

(5)read.table

转载于:https://www.cnblogs.com/MarsMercury/p/4935858.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ddem35827

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园

CodingPark 编程公园

04-13

1万+

文章目录神经网络知识大串联 1:第一代的神经元模型 3 2：从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN 5 7:循环神经网络RNN 8 8:神经网络交叉领域实现与应用 9 两部分知识的连接自然语言处理知识大串联 1:one-hot 11 2:Word-embeding 词嵌入 11 3:Word2V...

R语言ffbase包读取并处理大数据集

gtxing的博客

08-25

1万+

R语言中data.table包用于处理大数据集（GB级或TB级），但其无法逃掉内存不足的限制，对于电脑内存只有4G或8G的我们来说会把内存撑爆，不知道你有没有这个体验，真是令人头痛，据说ff包的read.table.ffdf()函数可以把TB级的大数据集映射到硬盘，调用ffbase包使用R语言的基础函数来处理这些大数据集。

参与评论您还未登录，请先登录后发表或查看评论

R语言-data.table包用来加速大型数据集的加载和运算

Norah 的技术博客

07-07

1549

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点是快。它内部处理的步骤进行了程序上的优化，使用多线程，还有很多C编写的函数，大大加快数据运行速度。尤其当对一两百万甚至更大数据集进行修改或运算时，由于data.table直接对数据本身做运算，不创建副本，因此相较于基本的data.frame格式，data.table在面对大型数据集时，进行聚合排序以及分组运算的性能非常高！............

用R处理大数据集

mousever的专栏

04-12

2596

本文翻译自R in Action的附录G，如果对该书感兴趣，请自行购买或去图书馆阅读。 R会把所有的对象读存入虚拟内存中。对我们大多数用户来说，这种设计可以提高与R相互的速度，但是当分析大数据集时，这种设计会降低程序运行速度有时还会产生跟内存相关的错误。内存限制主要取决于R的build版（32位还是64位），而在32位的windows下，取决于操作系统的版本。以cannot allocate

Error: cannot allocate vector of size XX Gb

热门推荐

data+scenario+science+insight

04-06

2万+

Error: cannot allocate vector of size XX Gb

【R语言】内存管理

Asher117的博客

01-17

1万+

使用R语言时，经常会出现cannot allocate vector of size ***这样的错误，例如，我今天就出现了下面这个错误。 Error: cannot allocate vector of size 1.9 Gb R语言在处理小数据是很爽，但当碰到一个模型产生了一个很大的Vector就很麻烦了，这时就有可能内存不够。因此需要进行内存管理。查看当前设置下最大内存查看当前设置...

R语言︱大数据集下运行内存管理

素质云笔记

04-10

2万+

在实操时出现以下的问题： Error: cannot allocate vector of size 2.9GB 大神指导（http://bbs.pinggu.org/thread-3682816-1-1.html） cannot allocate vector就是典型的数据太大读不了方法有三一、升级硬件二、改进算法三、修改操作系统分配给R的内存上限, memory.

人工智能之python数据分析与自然语言处理NLP.pptx

03-26

- **50-70年代**：这一时期的研究主要依赖于规则驱动的方法，通过编写规则来处理语言中的结构。例如，计算机答疑系统就是这一时期的一个典型应用，它通过查找预定义的数据库来回答用户的问题。 - **90年代至今**：...

python数据分析与自然语言处理.ppt

03-12

后者利用大规模的真实世界语料库进行训练，从而构建出更加准确和有效的自然语言处理模型。这种方法的优势在于可以较好地处理语言的多义性和复杂性，尽管仍然面临诸多挑战。 #### 二、编程语言与自然语言的区别 ...

云计算交通违法大数据处理研究.pdf

07-18

云计算中的MapReduce编程模型是处理大规模数据集并行运算的一种编程模型。MapReduce的主要思想在于将运算过程分为两个阶段：Map阶段和Reduce阶段。在Map阶段，系统将输入的数据集分解成许多小的数据块，并对每个数据...

ffbase:R包ff的基本（统计）功能

05-08

ffbase R是出色的统计工具。但是，它的重要数据对象是内存对象：R中的所有处理都在内存中进行。 ff是一个R包，用于处理大于内存的向量，但目前缺少某些标准的统计方法。 ffbase的目的是为ff对象提供基本的统计功能，因此使用ff进行编程将更加容易。要从CRAN安装ffbase： install .packages( "ffbase" ) 要从github安装最新版本 library(devtools) install_github("edwindj/ffbase", subdir="pkg") 另请参阅我在上基于演示文稿在ffbase2中为ff处理

Spark编程挑战题目

最新发布

07-12

- 在大规模数据集上验证模型的准确性和扩展性。 3. **模型部署与应用：** - 部署模型到生产环境。 - 应用模型进行大规模图像标签分类。 **工具与框架：** - **Apache Spark：** 数据预处理。 - **Deep Learning ...

出错解决 | Error: cannot allocate vector of size 109.7 Mb

weixin_40640700的博客

07-30

1万+

最近要处理蛮大的数据。结果这个数据放到R中，却出现了内存不够的问题。关于计算机的基础的知识，是我一直以来的薄弱项。我现在拥有足够的精力和时间，所以，我希望能够认真解决这个问题。解决方法，并没有想象的那么复杂。在要处理的大数据的代码前，添加gc() 即如下所示： coverage_cutoff <- 3 coverage_percentage <- 0.2 cell_percentage <- 0.2 artefact_percentage <- 0.03 gc() #.

Notes—Dense Vector and Sparse Vector

code_caq的博客

07-02

4018

……未完待补充…… ref： 1. Spark官方文档 2. http://bbs.csdn.net/topics/391002544在spark.ml.linalg里有两种vector——DenseVector 和 Sparse Vector，两者都继承于Vectors1.两者区别 DenseVector： a value arraydef: Vectors.dense(values:

R语言处理矩阵遇到内存不足的问题的处理办法

lww1993的专栏

06-11

1万+

Error : cannot allocate vector of size XGb 类似于这种问题的可能处理办法： 1. 可以用matrix尽量不要用data frame; 2. 可以用integer matrix尽量不要用 double matrix; 3. 对于大量运算后最好加上一个gc(), 强制R语言回收内存； 4. 对于大矩阵而言用bigmemory包，可以将大矩阵放到临时...

Vectors及密集向量(dense)和稀疏向量(sparse)

CANDY的博客

02-21

5049

一、构造器 Vectors() 二、方法修饰符和类型方法说明 static Vector dense(double[] values) 从双精度数组创建密集向量 static Vector dense(double firstValue, double... otherValues) 根据参数值创建密集向量 static Vector dense(double firstValue, scala.collection.Seq<Object> otherValu

R：读取大的TXT文件

NickyCat的博客

09-11

6037

在做生信的时候经常要读取很大的基因表达矩阵，通常下载的时候是txt文件，文件巨大，读取就很慢。下面比较三种方法的读取速度： read.table s <- Sys.time() temp <- read.table(file = 'D:/symbol.txt', sep = '\t', header <- T, check.names = F) e <- Sys.time() print(e - s) #Time difference of 2.053548 mins D

R语言data.table包高效数据处理（大量数据分析/处理）

关注我，你就是我的电子朋友咯！

04-07

8004

在数据处理量较大的时候，最为头痛的就是数据的读写、运算效率。 data.table处理大数据集（数据文件达到以1G为单位）时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数（filter、group_by、mutate、summarise），数据量在上100万左右，稍微复杂的计算差距就特别明显。 ...

R语言：如何存储超大数据集

watermel__的博客

06-09

966

有的时候数据会以.RDS的格式被提供，这个时候就只能用R语言读取文件。如果遇到超大数据怎么把数据存储出来呢？可以发现这个数据特征数非常多，我要获取归一化以后的data矩阵。代码如下： save_npz_.py文件里面的内容：...

深入探索Hadoop：分布式大数据处理实战

3. **MapReduce**：Hadoop的另一个核心组件，是一种编程模型，用于大规模数据集的并行处理。Map阶段将任务分解为小单元，Reduce阶段则整合结果。 4. **Hadoop安装与配置**：书中会介绍如何在本地或集群环境中安装和...