tar压缩文件_C语言实战让程序能够处理压缩文件

5823aa3606f771f409eb13b00a2158b5.png

之前的程序不能够处理压缩文件,而事实上为了节约空间,基本上fastq都会压缩成gz格式,因此这一课就是让程序能够支持压缩文件。

这里有两种思路,一种是利用管道,将之前的压缩文件通过 zcat程序读取然后传递给我们的程序,另一种则是在程序中调用zlib库,让程序能够直接处理gz文件.

背景知识

针对思路1: 系统在每个C语言运行的时候都至少会提供三个流,标准输入(stdin),标准输出(stdout)和标准错误(stderr). 在之前的程序我们就用到了stdout,用于将结果输出到屏幕上, 即 fprintf(stdout,"%s",line);。同样,我们可以修改 fgets(line,MAX_LINE_LENGTH,fi)中的 fistdin使得程序能够接受管道传递的数据。

针对思路2: 利用zlib读取gz文件并不复杂,只需要将原来的函数名前面加上或者改成gz。毕竟优秀的代码应该符合人的直觉,下面就是我们将要用到的几个函数

  • 声明水管: gzFile

  • 连接水管: gzopen(constchar*path,constchar*mode)

  • 读取一行: gzgets(gzFile file,char*buf,intlen)

  • 输出到gz文件中: gzprintf(gzFile file,constchar*format,...)

  • 关闭水管: gzclose(gzFile file)

我们以一个非常简单的代码进行展示,它会从gz文件中按行读取然后输出

#include

#include

int main(int argc, char *argv[])

{

gzFile fi;

fi = gzopen(argv[1], "r");

char string[1000];

while ( gzgets(fi, string, 1000) != NULL) {

printf("%s", string);

}

return 0;

}

它不是只能处理压缩文件,对于没有压缩的文件也是可以识别的,因此不需要写专门的逻辑判断语句,根据文件名来决定是否使用zlib相关的函数。

gzopen can be used to read a file which is not in gzip format; in this case gzread will directly read from the file without decompression. When reading, this will be detected automatically by looking for the magic two-byte gzip header

由于zlib不是标准库,我们在编译程序的时候需要额外加上 -lz参数,用于链接动态库。

动手搞事情

有了以上的背景知识后,我们就可以来修改我们之前的代码了.

zlib在大部分服务器上都属于默认安装,因此只需要多加一行 #include. 但是还是有一小部分服务器居然没有安装zlib,因此我们需要先下载编译(root权限可以直接用apt/yum进行安装)。

wget https://www.zlib.net/zlib-1.2.11.tar.gz

tar xf zlib-1.2.11.tar.gz

cd zlib-1.2.11 && ./configure && make -j 8

修改后的fq2fa.c的代码如下

#include

#include

#include

#include "zlib.h"

#define MAX_LINE_LENGTH 1000

int main(int argc, char *argv[]){

gzFile fi;

gzFile fo;

if (argc < 2 ){

return -1;

}

fi = gzopen( argv[1], "rb");

if ( argc == 3 ){

fo = gzopen (argv[2], "wb");

}

char line[MAX_LINE_LENGTH];

int count = 0;

while ( gzgets(fi,line, MAX_LINE_LENGTH) != NULL) {

if ( count == 0) {

line[0] = '>';

}

if ( count < 2){

if ( argc == 2) {

fprintf(stdout, "%s", line);

}

if ( argc ==3 ){

gzprintf(fo, "%s", line);

}

}

if ( ++count > 3 ){

count = 0;

}

}

gzclose(fi);

if (argc == 3) gzclose(fo);

return 0;

}

编译方法为 gcc-lz-Lzlib-o fq2fa fq2fa.c。关于代码的讲解和zlib的知识点可以看视频介绍, https://www.bilibili.com/video/av84768292/。

代码目前存在的问题是行缓冲是1000字符,对于三代测序数据,按照宣传可以有几M,一般也是几百k,因此当前程序处理三代程序肯定不行。一个方法是将 MAX_LINE_LENGTH设置为更大的值,比如说设置为10M,或者是将其设置为一个参数,可以手动指定。

不过下一次,将会学习一个新的轮子klib,用里面的函数来解决这个问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值