单机读取大文件方法

rick_9527

于 2019-04-29 20:46:35 发布

阅读量348

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42252606/article/details/89682089

版权

有这样一个需求

1T 文件，行存储

只有一台 128M，64M，256G

要求计算重复行。

做法：

参考hashmap的数据结构，有这种做法.仅仅是思路

每次读取一行数据，对它取哈希模上一个值，比如 i.hashCode()%2000，用2000个小文件分开存储1T文件的内容，这样保证了相同内容的行数据肯定落在同一个小文件中，再根据hashset的不可重复特点，找出重复行。这样只有两次1T文件的io读取。

还有一种需求是排序，

每次读取一行数据，如果在0-100形成一个文件，101-200形成一个小文件以此类推，这些小文件特点是外部有序，内部无序，每次读取小文件进行排序后放在一个大文件中，最终形成的大文件就是完全有顺序的。

还有一种做法是每次取500M文件或者说每次读200行，读取文件然后排序形成一个小文件，这些小文件的特点是内部有序，外部无序，可以用归并排序的方法读取小文件给所有小文件内容从小到大依次排序。这样只有两次1T文件的io读取

这两种做法其实都是采取了分治的思想，把内容分开形成多个小内容或者小文件再处理每个小文件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。