java直接读取.gz,java – 读取gz文件并跟踪文件中的位置

那么,情况如下:

我必须阅读大的.gz档案(GB)和一种“索引”它们以后能够使用随机访问检索特定的部分.

换句话说,我希望逐行读取存档,并能够获取文件中任何此类行的特定位置. (这样我可以根据要求直接跳到这些特定的位置). (PS:……它是UTF-8所以我们不能假设1个字节== 1个字符.)

所以,基本上,我只需要一个BufferedReader来跟踪它在文件中的位置.但是,这似乎并不存在.

有什么可用的或者我必须自己滚动吗?

一些额外的评论:

>我不能直接使用BufferedReader,因为文件位置对应于到目前为止已缓冲的内容.换句话说,内部缓冲区大小的倍数而不是行位置.

>出于性能原因,我无法直接使用InputStreamReader.无缓冲可能会减慢速度,顺便说一下,缺乏读取线条的便捷方法.

>我不能使用RandomAccessFile,因为1.它是压缩的,而且2. RandomAccessFile使用“修改的”UTF-8

我想最好的是使用一种缓冲读取器来跟踪文件位置和缓冲区偏移…但这听起来非常麻烦.但也许我错过了什么.也许已经存在一些事情要做,一行一行地读取文件并跟踪位置(即使压缩).

谢谢你的提示,

阿尔诺@H_301_22@

最佳答案@H_301_22@

我认为jzran可能正是您所寻找的:

It’s a Java library based on the

zran.c sample from zlib.

You can preprocess a large gzip

archive,producing an “index” that can

be used for random read access.

You can balance between index size and

access speed.

@H_301_22@

总结

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java ,可以使用 Apache Commons Compress 库来读取 tar.gz 文件。下面是一个简单的示例代码,示例假设要读取的 tar.gz 文件只有一个文件: ```java import org.apache.commons.compress.archivers.tar.TarArchiveInputStream; import org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream; import java.io.*; public class TarGzReader { public static void main(String[] args) throws IOException { String fileName = "example.tar.gz"; // 要读取的 tar.gz 文件名 String innerFileName = "example.txt"; // 要读取的 tar.gz 文件里的文件名 // 创建文件输入流 FileInputStream fis = new FileInputStream(fileName); // 创建 Gzip 压缩输入流 GzipCompressorInputStream gzis = new GzipCompressorInputStream(fis); // 创建 Tar 归档输入流 TarArchiveInputStream tais = new TarArchiveInputStream(gzis); // 读取 Tar 归档文件 TarArchiveEntry entry; while ((entry = tais.getNextTarEntry()) != null) { if (entry.getName().equals(innerFileName)) { // 找到要读取文件 // 创建字节输入流 ByteArrayOutputStream baos = new ByteArrayOutputStream(); int len; byte[] buffer = new byte[1024]; while ((len = tais.read(buffer)) != -1) { baos.write(buffer, 0, len); // 将文件内容写入字节数组输出流 } String content = baos.toString("UTF-8"); // 将字节数组输出流转换为字符串 System.out.println(content); // 输出文件内容 break; } } // 关闭流 tais.close(); gzis.close(); fis.close(); } } ``` 上述示例代码,首先创建文件输入流、Gzip 压缩输入流和 Tar 归档输入流。然后,使用 getNextTarEntry() 方法读取 Tar 归档的每个条目,如果找到要读取文件,就使用字节输入流将文件内容读取到字节数组输出流,最后将字节数组输出流转换为字符串并输出。最后,关闭流。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值