高效读取大文件，再也不用担心 OOM 了！

最新推荐文章于 2025-05-03 18:37:07 发布

javageektech

最新推荐文章于 2025-05-03 18:37:07 发布

阅读量1w

点赞数 16

本文链接：https://blog.csdn.net/javageektech/article/details/106774313

版权

本文讲述了在处理大文件时遇到的OOM问题，以及如何通过逐行读取（BufferedReader、Apache Commons IO、Java8 Stream）、并发读取（逐行批次打包、大文件拆分）等方式避免内存溢出，提高效率。通过实例代码展示了解决方案，并提到Spring Batch在批量处理数据中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

每天早上七点三十，准时推送干货

Photo by Luisa Brimble on Unsplash

最近阿粉接到一个需求，需要从文件读取数据，然后经过业务处理之后存储到数据库中。这个需求，说实话不是很难，阿粉很快完成了第一个版本。

内存读取

第一个版本，阿粉采用内存读取的方式，所有的数据首先读读取到内存中,程序代码如下：

Stopwatch stopwatch = Stopwatch.createStarted();
// 将全部行数读取的内存中
List<String> lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset());
for (String line : lines) {
    // pass
}
stopwatch.stop();
System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s");
// 计算内存占用
logMemory();

logMemory方法如下:

MemoryMXBean memoryMXBean = ManagementFactory.getMemoryMXBean();
//堆内存使用情况
MemoryUsage memoryUsage = memoryMXBean.getHeapMemoryUsage();
//初始的总内存
long totalMemorySize = memoryUsage.getInit();
//已使用的内存
long usedMemorySize = memoryUsage.getUsed();


System.out.println("Total Memory: " + totalMemorySize / (1024 * 1024) + " Mb");
System.out.println("Free Memory: " + usedMemorySize / (1024 * 1024) + " Mb");

上述程序中，阿粉使用 Apache Common-Io 开源第三方库，FileUtils#readLines将会把文件中所有内容，全部读取到内存中。

这个程序简单测试并没有什么问题，但是等拿到真正的数据文件，运行程序，很快程序发生了 OOM。

之所以会发生 OOM，主要原因是因为这个数据文件太大。假设上面测试文件 test.txt总共有 200W 行数据，文件大小为：740MB。

通过上述程序读取到内存之后，在我的电脑上内存占用情况如下：