R语言data.table包高效数据处理（大量数据分析/处理）

最新推荐文章于 2022-07-17 08:56:42 发布

LEEBELOVED

最新推荐文章于 2022-07-17 08:56:42 发布

阅读量7.9k

点赞数 3

分类专栏： R语言《实用经验随笔》BY灵魂体验官文章标签： data.table包数据清洗索引大数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LEEBELOVED/article/details/89055062

版权

在数据处理量较大的时候，最为头痛的就是数据的读写、运算效率。

data.table处理大数据集（数据文件达到以1G为单位）时相对于R语言的基本函数在数据读写、处理速度都不能与之相比可以对比基础函数、dplyr包函数做同样运算处理的时间。可自行对比数据处理函数（filter、group_by、mutate、summarise），数据量在上100万左右，稍微复杂的计算差距就特别明显。

但对于复杂的数据如何还尚未试验。

data.table包除了处理速度快外另一个有点是代码简洁。

1、fread函数（列出常用的参数）可以对比read.csv、read.xlsx

fread(input, sep, header stringsAsFactors, encoding)

   input    需要读取的数据；
     sep    列的分隔符；
     header    第一行是否为列名；
     stringsASFactors    是否转化字符串为因子;
     encoding    默认"unknown"，在读取数据乱码的时候可以变更，以在软件中显示正常，而通常也是文本和网页数据会出现编码的问题;

2、fwrite函数（列出常用的参数）

fwrite(data, file , append ,sep, row.names, col.names)

     data 你需要写出/保存的数据；
     file 保存到本地的文件名,；
     append    如果TRUE,在你之前保存到本地的原文件后面添加新数据；
     sep

最低0.47元/天解锁文章

关注

3
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

LEEBELOVED 一分钱都是爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。