R实现大文本文件数据过滤的方法

刨坑数据

于 2014-08-28 18:50:46 发布

阅读量4.7k

点赞数

分类专栏：胡说八道文章标签： r语言大文本文件过滤

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012388497/article/details/38901937

版权

本文介绍了如何使用R语言对大文本文件进行数据过滤。通过示例，展示了如何分批读取、过滤并合并结果，以处理无法一次性加载到内存的大型数据文件。同时，对比了Python和集算器的解决方案，强调了不同语言在处理大文件时的特点。

摘要由CSDN通过智能技术生成

使用R语言过滤文件数据是很普遍的操作，但有时我们会遇到比较大的文件，这类文件无法全部读入内存处理，需要采用分批读取、分批过滤、拼合结果的办法来解决。下面用一个例子来说明R实现大文件数据过滤的方法。

有个1G的文件sales.txt，存储着大量订单记录，请过滤出AMOUNT字段值在2000和3000之间的记录。该文件的列分割符为“\t”，前几行数据如下：

R语言解决方案

con <- file("E:\\sales.txt", "r")
readLines(con,n=1)
result=read.table(con,nrows=100000,sep="\t")
result<-r

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

刨坑数据 CSDN认证博客专家 CSDN认证企业博客

码龄11年

165: 原创

53万+: 周排名

113万+: 总排名

44万+: 访问

: 等级

6086: 积分

30: 粉丝

13: 获赞

15: 评论

73: 收藏

私信

关注

热门文章

分类专栏

最新评论

自定义数据源是报表开发的常态
Thinion: 这个工具有点厉害呢！
R读写Excel文件中数据的方法
并肩.op: 具体地址:https://blog.csdn.net/weixin_45686211/article/details/103177664
R读写Excel文件中数据的方法
并肩.op: j [code=plain] protected void Button1_Click(object sender, EventArgs e) { //获取文件路径 try { //先上传文件至服务器 string filename = this.FileUpload1.PostedFile.FileName; //判断路径是否为空 if (filename != "") { string extension = (new FileInfo(filename)).Extension; string newfilename = System.DateTime.Now.ToString("yyyyMMddHHmmss") + extension; string path = Server.MapPath("~/UploadFile/"); this.FileUpload1.PostedFile.SaveAs(path + newfilename); filePath = Server.MapPath("~/UploadFile/" + newfilename); if (filePath.Contains("xls"))//判断文件是否存在 { //执行导入方法 InputExcel(filePath); } else { Response.Write("<script>alert('选择的文件不是表格形式，或者格式不是xls文件格式！');</script>"); } }[code=plain] [/code]
实现birt报表跨库数据源的简单办法
weixin_43682864: Birt报表展现能力不错，但是几乎完全没有数据处理能力，需要依赖存储过程来完成。对于难度更高的数据处理需求，比如跨库运算，内存溢出等问题的解决，也有程序员专门写了Java代码来做前期数据处理，再把处理结果传给Birt展现。不管哪种方案，工作量都很大，而且效率很低。 <span xss=removed><u><a href="http://c.raqsoft.com.cn/article/1537155188168?r=KittyYan" rel="nofollow">《让Birt报表脚本数据源变得既简单又强大》 </a></u></span>这篇文章解决了Birt报表的数据处理难题，值得参考借鉴。
报表的数据组织：文件还是数据库？
脑子受了重伤: 原来是广告

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。