JAVA—读高效读取大文件

概述

这篇文章将描述怎样在JAVA中高效的读取一个大文件

内存中读取

我们一般常用的方法是在内存中读取文件。—包括 Guava 和 Apache Commons IO 都提供了一个简便的方法来操作:

Files.readLines(new File(path), Charsets.UTF_8);
FileUtils.readLines(new File(path));

这是会发生问题的,我们将所有的文件都保存在了内存中。要是文件过大,就会出现 OutOfMemoryError ;

例如,读取1个1GB的文件

@Test
public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {
    String path = ...
    Files.readLines(new File(path), Charsets.UTF_8);
}

内存会被耗尽

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 128 Mb
[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 116 Mb

在我们读取完文件操作后。我们可以看到内存:

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 2666 Mb
[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 490 Mb

这意味着。有2.1GB的内存被使用,原因很简单,就是把所有文件都装入了内存

但通常。我们并不需要一次性加载内存中的所有文件。我们仅仅需要遍历文件。做一些操作。然后丢弃。所以,我们现在要做的就是不把文件完全加入到内存中依次遍历文件。

通过流来操作

我们来看看这个方法。我们将通过 java.util.Scanner 来依次遍历。

FileInputStream inputStream = null;
Scanner sc = null;
try {
    inputStream = new FileInputStream(path);
    sc = new Scanner(inputStream, "UTF-8");
    while (sc.hasNextLine()) {
        String line = sc.nextLine();
        // System.out.println(line);
    }
    // note that Scanner suppresses exceptions
    if (sc.ioException() != null) {
        throw sc.ioException();
    }
} finally {
    if (inputStream != null) {
        inputStream.close();
    }
    if (sc != null) {
        sc.close();
    }
}

这个方法,依次遍历文件,对每行文件都可以处理。并且不需要全部加载在内存中

[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 763 Mb
[main] INFO org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 605 Mb

Apache Commons IO 的文件流

上面的那个操作也可以通过 Commons IO 来实现每一行的遍历

LineIterator it = FileUtils.lineIterator(theFile, "UTF-8");
try {
    while (it.hasNext()) {
        String line = it.nextLine();
        // do something with line
    }
} finally {
    LineIterator.closeQuietly(it);
}

同样,也是不在内存中加载全部文件。少量的内存消耗:

[main] INFO o.b.java.CoreJavaIoIntegrationTest - Total Memory: 752 Mb
[main] INFO o.b.java.CoreJavaIoIntegrationTest - Free Memory: 564 Mb

5.结束

好了,文章到此结束,在我们日常的开发中,在遇到读取大文件就可以参照以上的方法了。

转载于:https://my.oschina.net/u/265943/blog/292859

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值