高效读取大文件,再也不用担心 OOM 了!

每天早上七点三十,准时推送干货

Photo by Luisa Brimble on Unsplash

最近阿粉接到一个需求,需要从文件读取数据,然后经过业务处理之后存储到数据库中。这个需求,说实话不是很难,阿粉很快完成了第一个版本。

内存读取

第一个版本,阿粉采用内存读取的方式,所有的数据首先读读取到内存中,程序代码如下:

Stopwatch stopwatch = Stopwatch.createStarted();
// 将全部行数读取的内存中
List<String> lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset());
for (String line : lines) {
    // pass
}
stopwatch.stop();
System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s");
// 计算内存占用
logMemory();

logMemory方法如下:

MemoryMXBean memoryMXBean = ManagementFactory.getMemoryMXBean();
//堆内存使用情况
MemoryUsage memoryUsage = memoryMXBean.getHeapMemoryUsage();
//初始的总内存
long totalMemorySize = memoryUsage.getInit();
//已使用的内存
long usedMemorySize = memoryUsage.getUsed();


System.out.println("Total Memory: " + totalMemorySize / (1024 * 1024) + " Mb");
System.out.println("Free Memory: " + usedMemorySize / (1024 * 1024) + " Mb");

上述程序中,阿粉使用 Apache Common-Io 开源第三方库,FileUtils#readLines将会把文件中所有内容,全部读取到内存中。

这个程序简单测试并没有什么问题,但是等拿到真正的数据文件,运行程序,很快程序发生了 OOM

之所以会发生 OOM,主要原因是因为这个数据文件太大。假设上面测试文件 test.txt总共有 200W 行数据,文件大小为:740MB。

通过上述程序读取到内存之后,在我的电脑上内存占用情况如下:

可以看到一个实际大小为 700 多 M 的文件,读到内存中占用内存量为 1.5G 之多。而我之前的程序,虚拟机设置内存大小只有 1G,所以程序发生了 OOM。

当然这里最简单的办法就是加内存呗,将虚拟机内存设置到 2G,甚至更多。不过机器内存始终有限,如果文件更大,还是没有办法全部都加载到内存。

不过仔细一想真的需要将全部数据一次性加载到内存中?

很显然,不需要!

在上述的场景中,我们将数据到加载内存中,最后不还是一条条处理

  • 15
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
当需要读取大量数据时,最好不要将所有数据都读入内存,因为这样容易导致内存不足(OOM)。可以使用 Java 中的流(Stream)来逐行读取数据,并且使用缓冲区(Buffer)来减少磁盘 I/O 操作的次数。以下是一个简单的例子: ```java import java.io.*; public class Main { public static void main(String[] args) { String inputFile = "input.txt"; String outputFile = "output.txt"; try (BufferedReader br = new BufferedReader(new FileReader(inputFile)); BufferedWriter bw = new BufferedWriter(new FileWriter(outputFile))) { String line; int count = 0; while ((line = br.readLine()) != null) { bw.write(line); bw.newLine(); count++; if (count % 10000 == 0) { bw.flush(); // 每隔一定数量的数据就刷新缓冲区 } } bw.flush(); // 在处理完所有数据后,最后刷新缓冲区 System.out.println("写入完成,共写入 " + count + " 条数据"); } catch (IOException e) { e.printStackTrace(); } } } ``` 在上面的代码中,我们使用了 BufferedReader 和 BufferedWriter 来分别读取和写入数据。在循环中,我们逐行读取数据并写入到输出文件中,每隔一定数量的数据就刷新缓冲区,这样可以减少磁盘 I/O 操作的次数,提高写入数据的效率。最后,在处理完所有数据后,我们再次刷新缓冲区,确保所有数据都被写入文件中。 需要注意的是,如果数据量非常大,那么可能需要使用更高效的 I/O 操作,例如使用 NIO(New I/O)操作来替代传统的 I/O 操作,以获得更好的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值