R语言-内存管理

最新推荐文章于 2024-10-10 09:50:35 发布

weixin_30815427

最新推荐文章于 2024-10-10 09:50:35 发布

阅读量1.9k

点赞数

文章标签： r语言内存管理操作系统

原文链接：http://www.cnblogs.com/cloudtj/articles/5478281.html

版权

本文详细探讨了R语言的内存管理机制，包括对象大小、内存使用与垃圾回收、内存剖析与lineprof工具的使用，以及何时发生对象拷贝。通过实例解析了R如何分配和释放内存，以及如何利用lineprof进行内存性能分析。同时，文章指出在循环中避免不必要的对象拷贝以提高效率，并推荐使用RCpp包进行内存敏感的编程。

摘要由CSDN通过智能技术生成

R语言内存管理

R之内存管理-转载

引言

R的内存管理机制究竟是什么样子的？最近几日在讲一个分享会，被同学问到这方面的问题，可是到网上去查，终于找到一篇 R语言内存管理不过讲的不清不楚的，就拿memory.limit()函数来说，是在windows下才使用的，作者几乎没有提及，还有rm()，gc()函数到底怎么工作的，什么时候用，都无从提及。看来百度是解决不了了，关键时候还是靠google啊，这不，很快找到了一篇相当不错的文章 Memory ，还是人家外国人比较注重细节，下面的部分几乎是从那儿翻译过来的。需要学习R的高级编程的同学，可以下载Advanced R，本文属于其中的一个章节。另外值得一提的是在《R语言实践》一书中的附录G对于怎么高效编程，也有一些建议！

1. Object size

这一节用到的第一个重要的函数为pryr包中的object_size()，这个函数返回R对象占用的内存空间。object_size()函数与object.size()相比，能够计算R对象内部共享部分的内存空间以及R对象的上下文环境的大小。下面的代码分别计算了vector，函数，数据集的大小，在R语言中函数也是一个对象。

> library(pryr)
> object_size(1:10)
#>88 B
> object_size(mean)
#>832 B
> object_size(mtcars)
#>6.74 kB

R对象所占资源内存的分配并不是线性的，例如一个空的向量被分配的资源并不是0，我们做下面的实验（运行代码查看图形）：

sizes <- sapply(0:50, function(n) object_size(seq_len(n)))
plot(0:50, sizes, xlab = "Length", ylab = "Size (bytes)", 
  type = "s")

一个空的R对象分配到的内存空间并不是0，下面的代码充分说明了这一点：

> object_size(numeric())
#>40 B
> object_size(logical())
#>40 B
> object_size(raw())
#>40 B
> object_size(list())
#>40 B

40B大小的空间，到底存了哪些内容？主要分两大部分：

R空对象数据
1. R对象的元数据(4 Bytes)，包括基础的数据类型（例如 integer）和用于调试和内存管理的一些信息数据。
2. 两个指针(2*8 Bytes)，一个指针指向内存中的前一个对象，另外一个指针指向内存中下一个对象，由于是双指针的，所以使得循环变得简单。
3. 一个指针指向attributes(8 Bytes)。
R向量对象额外的数据
1. 向量的大小信息(4 Bytes)，占用4Bytes空间，所能表示的最大的空间为24 × 8 − 1 (231，大约为2百万)，R3.0.0或者以后这个数可能更大，详细可以参见 Read R-internals 。
2. 向量“True”的大小(4 Bytes)。这个数据一般都用不到，但是当向量用作hash表时，那么该值反映的是真正占用的大小。
3. 数据块(?? Bytes)。对于空向量，该值为0；另外该值随着数据类型的不同，每个元素占用的长度不同，例如numeric为8 Bytes，integer为4 Bytes，复杂的向量为16 Bytes。

除去向量对象的数据块，我们计算一下空向量占用的大小为（4+2*8+8+4+4=36 Bytes），那么剩下的4 Bytes在哪里？熟悉C语言的人，可能会知道“字节填充”的概念，对于64位系统来说，系统访问内存最好为8 Bytes的边界，否则会访问两次才能访问到数据，造成不能在一个读周期内完全能读取到数据；另外考虑到不同的平台，可能访问规则不同，字节填充有利于平台的移植。如果你感兴趣，可以查阅 C str