读取TXT文件

作者:子谦
链接:https://www.zhihu.com/question/67344572/answer/252403722
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

TXT是一个文本文件,一般采用流的方式读取:
java提供了一个FileInputStream,我们可以直接以文件路径构造这个流,也可以以文件对象构造他,如:FileInputStream fin = new FileInputStream(“d:/aa.txt”);
然后使用这个流就可以直接读取到文件了,但是这个时候读取到的内容是int类型的数值,所以需要进一步的处理,我们把fin外面包上一个InputStreamReader,就变成了这样: InputStreamReader reader = new InputStreamReader(fin);
但是这一个reader读取文本并不是很方便,有一点要注意,在这一个reader的构造方法上面可以设定字符编码;
接下来,使用这个reader构造BufferedReader,BufferedReader拥有一个名为readLine的方法,可以读取一整行的文本,作为字符串返回,因此用起来会比较方便。 BufferedReader buffReader = new BufferedReader(reader);
接下来就是借助循环来读取文件中的字符串了,然后,去做你想做的事情好了

import java.io*;
public class MainStart{
    public static void main(String args[]){
        String filePath = "D:/aa.txt";
        FileInputStream fin = new FileInputStream(filePath);
        InputStreamReader reader = new InputStreamReader(fin);
        BufferedReader buffReader = new BufferedReader(reader);
        String strTmp = "";
        while((strTmp = buffReader.readLine())!=null){
            System.out.println(strTmp);
        }
        buffReader.close();
    }
}

新版本的java提供了NIO,我们可以通过这种新的API达成对文件的读写操作:

对于JDK11及以上版本,读取文本文件异常简单,我们只需要这样

Path path = Paths.get("D:/aa.txt");
String data = Files.readString(path);
System.out.println(data);

对于JDK8,你可以这样:

Path path = Paths.get("D:/aa.txt");
List<String>  lines = Files.readLines(path);

这就能按照行读取全部的文本内容。

对于jdk8,如果想要一次全部读取,你也可以这样做:

Path path = Paths.get("D:/aa.txt");
byte[] data = Files.readAllBytes(path);
String result = new String(data, "utf-8");

1.读取文件的乱码问题:

CodepageDetectorProxy codepageDetectorProxy = CodepageDetectorProxy.getInstance();
codepageDetectorProxy.add(JChardetFacade.getInstance());
Charset charset = codepageDetectorProxy.detectCodepage(file.toURI().toURL());

Charset就是字符集,可以用来解码byte数组为字符串。

2.二进制读取方式:

2.1 使用DataInputStream:

DataInputStream din = new DataInputStream(new FileInputStream(file));
byte[] data = new byte[1024];
while(din.read(data) > 0) {
    // 处理数据
}
din.close();

2.2 使用RandomAccessFile

RandomAccessFile randomFile = new RandomAccessFile(file, "r");
byte[] data = new byte[1024];
while(randomFile.read(data) > 0) {
    // 处理数据
}
randomFile.close();

2.3两者的区别
RandomAccessFile可以通过移动文件指针改变读取的位置,可以按照几种基本类型直接读取数据,可以跳过一定的字节,整体来看,文件就像一个大的二进制数组。而DataInputStream就是单纯的输入流。
3. 大量数据的处理思路:
3.1 借助ByteBuffer使用堆外内存,在不导致oom的情况且内存充足的情况下可以大量申请内存。
3.2 借助RandomAccessFile分块读取,记录读取的最后位置,处理完毕后继续读。或者多线程处理,拆分整个文件为多个大小相等的块,分入多个子线程进入线程池并发处理。
3.3 用BufferedReader和正则,匹配到特征数据后暂停,然后处理数据,然后继续读取

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值