R语言处理大规模数据集的编程要点

1.提高程序效率,保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵,必要时才使用数据框

(3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL

(4)将外部数据导入矩阵时,使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包:将数据保存在硬盘,操作起来跟在内存中一样

(2)bigmemory包:支持大规模矩阵的创建

(3)filehash:keyvalue数据库,value在硬盘中

(4)ncdf,ncdf4:读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread:data.table包,大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf:ff包

(3)read.big.matrix:bigmemory,无法在windows下

(4)read.csv.sql:sqldf包

(5)read.table

转载于:https://www.cnblogs.com/MarsMercury/p/4935858.html

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值