java 读写大文件 sleep_高效读取大文件

本文介绍了在Java中处理大文件时如何避免内存溢出,通过逐行读取、BufferedReader、Apache Commons IO以及Java 8 Stream的方式,并探讨了如何使用多线程并发读取和处理数据,包括逐行批次打包和大文件拆分处理。通过实例展示了如何优化读取大文件的性能。
摘要由CSDN通过智能技术生成

最近本人接到一个需求,需要从文件读取数据,然后经过业务处理之后存储到数据库中。这个需求,说实话不是很难,本人很快完成了第一个版本。

内存读取

第一个版本,本人采用内存读取的方式,所有的数据首先读读取到内存中,程序代码如下:

Stopwatch stopwatch =Stopwatch.createStarted();//将全部行数读取的内存中

List lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset());for(String line : lines) {//pass

}

stopwatch.stop();

System.out.println("read all lines spend" + stopwatch.elapsed(TimeUnit.SECONDS) + "s");//计算内存占用

logMemory();

logMemory方法如下:

MemoryMXBean memoryMXBean =ManagementFactory.getMemoryMXBean();//堆内存使用情况

MemoryUsage memoryUsage =memoryMXBean.getHeapMemoryUsage();//初始的总内存

long totalMemorySize =memoryUsage.getInit();//已使用的内存

long usedMemorySize =memoryUsage.getUsed();

System.out.println("Total Memory:" + totalMemorySize / (1024 * 1024) + "Mb");

System.out.println("Free Memory:" + usedMemorySize / (1024 * 1024) + "Mb");

上述程序中,本人使用 Apache Common-Io 开源第三方库,FileUtils#readLines将会把文件中所有内容,全部读取到内存中。

这个程序简单测试并没有什么问题,但是等拿到真正的数据文件,运行程序,很快程序发生了 OOM。

之所以会发生 OOM,主要原因是因为这个数据文件太大。假设上面测试文件 test.txt总共有 200W 行数据,文件大小为:740MB。

通过上述程序读取到内存之后,在我的电脑上内存占用情况如下:

3ed8fd3e739a439dba829e6ffba279ac.png

可以看到一个实际大小为 700 多 M 的文件,读到内存中占用内存量为 1.5G 之多。而我之前的程序,虚拟机设置内存大小只有 1G,所以程序发生了 OOM。

当然这里最简单的办法就是加内存呗,将虚拟机内存设置到 2G,甚至更多。不过机器内存始终有限,如果文件更大,还是没有办法全部都加载到内存。

不过仔细一想真的需要将全部数据一次性加载到内存中?

很显然,不需要!

在上述的场景中,我们将数据到加载内存中,最后不还是一条条处理数据。

所以下面我们将读取方式修改成逐行读取。

逐行读取

逐行读取的方式比较多,这里本人主要介绍两种方式:

BufferReader

Apache Commons IO

Java8 stream

BufferReader

我们可以使用 BufferReader#readLine 逐行读取数据。

try (BufferedReader fileBufferReader = new BufferedReader(new FileReader("temp/test.txt"))) {

String fileLineContent;while ((fileLineContent = fileBufferReader.readLine()) != null) {//process the line.

}

}catch(FileNotFoundException e) {

e.printStackTrace();

}catch(IOException e) {

e.printStackTrace();

}

Apache Commons IO

Common-IO 中有一个方法 FileUtils#lineIterator可以实现逐行读取方式,使用代码如下:

Stopwatch stopwatch =Stopwatch.createStarted();

LineIterator fileContents= FileUtils.lineIterator(new File("temp/test.txt"), StandardCharsets.UTF_8.name());while(fileContents.hasNext()) {

fileContents.nextLine();//pass

}

logMemory();

fileContents.close();

stopwatch.stop();

System.out.println("read all lines spend" + stopwatch.elapsed(TimeUnit.SECONDS) + "s");

这个方法返回一个迭代器,每次我们都可以获取的一行数据。

其实我们查看代码,其实可以发现 FileUtils#lineIterator,其实用的就是 BufferReader,感兴趣的同学可以自己查看一下源码。

Java8 stream

Java8 Files 类新增了一个 lines,可以返回 Stream我们可以逐行处理数据。

Stopwatch stopwatch =Stopwatch.createStarted();//lines(Path path, Charset

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值